Fugu-MT 論文翻訳(概要): Ada-NAV: Adaptive Trajectory Length-Based Sample Efficient Policy Learning for Robotic Navigation

論文の概要: Ada-NAV: Adaptive Trajectory Length-Based Sample Efficient Policy Learning for Robotic Navigation

arxiv url: http://arxiv.org/abs/2306.06192v5
Date: Wed, 20 Mar 2024 17:36:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 13:46:32.834178
Title: Ada-NAV: Adaptive Trajectory Length-Based Sample Efficient Policy Learning for Robotic Navigation
Title（参考訳）: Ada-NAV:ロボットナビゲーションのための適応軌道長に基づく効率的な政策学習
Authors: Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi, Dinesh Manocha,
Abstract要約: 軌道長は強化学習アルゴリズムの学習過程において重要な役割を果たす。本稿では,RLアルゴリズムのトレーニングサンプル効率を向上させるための適応軌道長スキームであるAda-NAVを紹介する。我々は,Ada-NAVが従来の手法より優れている実世界のロボット実験を実演する。
参考スコア（独自算出の注目度）: 72.24964965882783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Trajectory length stands as a crucial hyperparameter within reinforcement learning (RL) algorithms, significantly contributing to the sample inefficiency in robotics applications. Motivated by the pivotal role trajectory length plays in the training process, we introduce Ada-NAV, a novel adaptive trajectory length scheme designed to enhance the training sample efficiency of RL algorithms in robotic navigation tasks. Unlike traditional approaches that treat trajectory length as a fixed hyperparameter, we propose to dynamically adjust it based on the entropy of the underlying navigation policy. Interestingly, Ada-NAV can be applied to both existing on-policy and off-policy RL methods, which we demonstrate by empirically validating its efficacy on three popular RL methods: REINFORCE, Proximal Policy Optimization (PPO), and Soft Actor-Critic (SAC). We demonstrate through simulated and real-world robotic experiments that Ada-NAV outperforms conventional methods that employ constant or randomly sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV achieves an 18\% increase in navigation success rate, a 20-38\% reduction in navigation path length, and a 9.32\% decrease in elevation costs. Furthermore, we showcase the versatility of Ada-NAV by integrating it with the Clearpath Husky robot, illustrating its applicability in complex outdoor environments.
Abstract（参考訳）: 軌道長は強化学習(RL)アルゴリズムにおける重要なハイパーパラメータであり、ロボット工学の応用におけるサンプルの非効率性に大きく貢献する。 Ada-NAVはロボットナビゲーションタスクにおけるRLアルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。軌道長を固定されたハイパーパラメータとして扱う従来の手法とは異なり、下層の航法方針のエントロピーに基づいて動的に調整することを提案する。興味深いことに、Ada-NAVは既存のオン・ポリティとオフ・ポリティィのRL手法の両方に適用でき、この手法はREINFORCE, Proximal Policy Optimization (PPO), Soft Actor-Critic (SAC)の3つの一般的なRL法に対して実証的に有効性を示す。我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れている、シミュレーションおよび実世界のロボット実験を通して実証する。特に、固定サンプル予算では、Ada-NAV は航法成功率 18 % 、航法パス長 20-38 % 、高架コスト 9.32 % を達成している。さらに,Ada-NAVをClearpath Huskyロボットに統合することで,複雑な屋外環境に適用可能であることを示す。

関連論文リスト

Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration [7.50564221243905]
協調探索型マルチロボットRLアルゴリズムを提案する。その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は,提案アルゴリズムの優れた性能を示すものである。
論文参考訳（メタデータ） (2025-12-15T13:03:08Z)
SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration [58.05143960563826]
On-Manifold Exploration (SOE)は、ロボット操作におけるポリシー探索と改善を強化するフレームワークである。 SOEはタスク関連因子のコンパクトな潜在表現を学習し、有効なアクションの多様体への制約探索を行う。プラグインモジュールとして任意のポリシモデルとシームレスに統合することができ、基本ポリシのパフォーマンスを低下させることなく、探索を強化することができる。
論文参考訳（メタデータ） (2025-09-23T17:54:47Z)
PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。 PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T19:30:08Z)
SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
論文参考訳（メタデータ） (2024-07-24T17:57:21Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文参考訳（メタデータ） (2023-12-26T09:03:23Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Learning to Terminate in Object Navigation [16.164536630623644]
本稿では,自律ナビゲーションシステムにおけるオブジェクトナビゲーションの課題に対処する。我々は、Depth-Inference Termination Agent(DITA)という新しいアプローチを提案する。我々は、補助学習と並行して審査モデルを訓練し、報奨信号によって効率よく前者を監督する。
論文参考訳（メタデータ） (2023-09-28T04:32:08Z)
ReProHRL: Towards Multi-Goal Navigation in the Real World using Hierarchical Agents [1.3194749469702445]
本稿では、強化学習によって誘導される階層的マルチゴールナビゲーションでタスクを分割する生産階層RL(ReProHRL)について述べる。また、物体検出装置を前処理のステップとして使用して、マルチゴールナビゲーションを学習し、それを現実世界に転送する。実世界の実装と概念実証のために,提案手法をフロントカメラを用いたナノドローンCrzyflieに展開する。
論文参考訳（メタデータ） (2023-08-17T02:23:59Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文参考訳（メタデータ） (2021-06-18T17:57:00Z)
Rule-Based Reinforcement Learning for Efficient Robot Navigation with Space Reduction [8.279526727422288]
本稿では,強化学習(RL)技術を用いた効率的なナビゲーションに焦点を当てた。軌道を縮小するために減速ルールを採用し、冗長な探査空間を効果的に削減します。ヘックスグリッド環境における実際のロボットナビゲーション問題に対する実験は、RuRLが航法性能を向上させることを実証している。
論文参考訳（メタデータ） (2021-04-15T07:40:27Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。