論文の概要: CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration
- arxiv url: http://arxiv.org/abs/2306.06192v8
- Date: Tue, 24 Sep 2024 01:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:02:22.831236
- Title: CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration
- Title(参考訳): CCE:信頼度制御によるロボットナビゲーションのための効率的なスパースリワード政策学習
- Authors: Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi, Dinesh Manocha,
- Abstract要約: CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
- 参考スコア(独自算出の注目度): 72.24964965882783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Confidence-Controlled Exploration (CCE), a novel exploration scheme designed to enhance the training sample efficiency of reinforcement learning (RL) algorithms for sparse reward settings such as robot navigation. Sparse rewards are common in RL and convenient to design and implement, but typically hard to deal with due to the challenges of exploration. Existing methods deploy regularization-based methods to deal with the exploration challenges. However, it is hard to characterize the balance between exploration and exploitation because regularization modifies the reward function itself, hence changing the objective we are optimizing for. In contrast to regularization-based approaches in the existing literature, our approach, CCE, is based on a novel relationship we provide between gradient estimation and policy entropy. CCE dynamically adjusts the number of samples of the gradient update used during training to control exploration. Interestingly, CCE can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC) for goal-reaching robotic navigation tasks. We demonstrate through simulated and real-world experiments that CCE outperforms conventional methods that employ constant trajectory lengths and entropy regularization when constraining the sample budget. For a fixed sample budget, CCE achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of CCE by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments.
- Abstract(参考訳): 本稿では,ロボットナビゲーションなどのスパース報酬設定のための強化学習(RL)アルゴリズムのトレーニングサンプル効率を高めるための新しい探索手法である信頼性制御探索(CCE)を紹介する。
スパース報酬はRLで一般的であり、設計と実装に便利であるが、探索の課題のために対処するのが通常困難である。
既存の手法では、探索課題に対処するための正規化ベースの手法が展開されている。
しかし、正規化は報酬関数自体を変更するため、探索と搾取のバランスを特徴付けることは困難である。
既存の文献における正規化に基づくアプローチとは対照的に、我々のアプローチであるCCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
CCEは、探索を制御するために訓練中に使用される勾配更新のサンプル数を動的に調整する。
興味深いことに、CCEは既存のオン・ポリティクスとオフ・ポリティクスのRL手法の両方に適用でき、この手法を3つの一般的なRL手法(REINFORCE, Proximal Policy Optimization (PPO),Soft Actor-Critic (SAC))に対して実証的に有効性を示す。
我々は,サンプル予算を制約する場合に,一定の軌道長とエントロピー正規化を用いる従来の手法よりもCCEの方が優れる実世界のシミュレーション実験を通して実証する。
固定されたサンプル予算では、CCEは航法成功率18\%、航法パス長20-38\%、高架コスト9.32\%を達成している。
さらに,CCEをClearpath Huskyロボットに統合し,複雑な屋外環境に適用可能であることを示す。
関連論文リスト
- PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Learning to Terminate in Object Navigation [16.164536630623644]
本稿では,自律ナビゲーションシステムにおけるオブジェクトナビゲーションの課題に対処する。
我々は、Depth-Inference Termination Agent(DITA)という新しいアプローチを提案する。
我々は、補助学習と並行して審査モデルを訓練し、報奨信号によって効率よく前者を監督する。
論文 参考訳(メタデータ) (2023-09-28T04:32:08Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Rule-Based Reinforcement Learning for Efficient Robot Navigation with
Space Reduction [8.279526727422288]
本稿では,強化学習(RL)技術を用いた効率的なナビゲーションに焦点を当てた。
軌道を縮小するために減速ルールを採用し、冗長な探査空間を効果的に削減します。
ヘックスグリッド環境における実際のロボットナビゲーション問題に対する実験は、RuRLが航法性能を向上させることを実証している。
論文 参考訳(メタデータ) (2021-04-15T07:40:27Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。