論文の概要: Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation
- arxiv url: http://arxiv.org/abs/2306.06192v1
- Date: Fri, 9 Jun 2023 18:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:30:31.082280
- Title: Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation
- Title(参考訳): Ada-NAV:ロボットナビゲーションのための適応軌道に基づく効率的な政策学習
- Authors: Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M.
Sadler, Amrit Singh Bedi and Dinesh Manocha
- Abstract要約: 強化学習法は、ロボットナビゲーション戦略の学習に有効であるが、非常に非効率なサンプルであることが知られている。
そこで我々は,Ada-NAVを提案する。Ada-NAV,Ada-NAV,Ada-NAV,Ada-NAV,Ada-NAV,Ada-NAV,Ada-NAV,Ada-NAV,Ada-NAV。
固定サンプル予算では、Ada-NAVは18%の航法成功率、20~38%の航法経路長の減少、9.32%の上昇コストの減少をもたらす。
- 参考スコア(独自算出の注目度): 58.48201570552646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning methods, while effective for learning robotic
navigation strategies, are known to be highly sample inefficient. This sample
inefficiency comes in part from not suitably balancing the explore-exploit
dilemma, especially in the presence of non-stationarity, during policy
optimization. To incorporate a balance of exploration-exploitation for sample
efficiency, we propose Ada-NAV, an adaptive trajectory length scheme where the
length grows as a policy's randomness, represented by its Shannon or
differential entropy, decreases. Our adaptive trajectory length scheme
emphasizes exploration at the beginning of training due to more frequent
gradient updates and emphasizes exploitation later on with longer trajectories.
In gridworld, simulated robotic environments, and real-world robotic
experiments, we demonstrate the merits of the approach over constant and
randomly sampled trajectory lengths in terms of performance and sample
efficiency. For a fixed sample budget, Ada-NAV results in an 18% increase in
navigation success rate, a 20-38% decrease in the navigation path length, and
9.32% decrease in the elevation cost compared to the policies obtained by the
other methods. We also demonstrate that Ada-NAV can be transferred and
integrated into a Clearpath Husky robot without significant performance
degradation.
- Abstract(参考訳): 強化学習法は、ロボットナビゲーション戦略の学習に有効であるが、非常に非効率なサンプルであることが知られている。
このサンプルの非効率性は、政策最適化中に特に非定常の存在下での探索-展開のジレンマのバランスが不適切であることから生じる。
サンプル効率のための探索・探索のバランスを組み込むために, シャノンあるいは微分エントロピーで表されるポリシーのランダム性として長さが増加する適応軌道長スキームada-navを提案する。
適応軌跡長スキームは,より頻繁な勾配更新によるトレーニング開始時の探索を強調し,その後,より長い軌道での利用を強調する。
グリッドワールド, シミュレーションロボット環境, 実世界のロボット実験において, 一定かつランダムにサンプリングされた軌道長に対するアプローチの利点を, 性能と試料効率の観点から示す。
固定サンプル予算では、Ada-NAVは航法成功率が18%増加し、航法経路の長さが20~38%減少し、他の方法と比較して標高コストが9.32%低下する。
また,ada-navをclearpath huskyロボットに移し,性能を低下させることなく統合できることを実証した。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - PathRL: An End-to-End Path Generation Method for Collision Avoidance via
Deep Reinforcement Learning [16.397594417992483]
本稿では,ロボットのナビゲーション経路を生成するためのポリシーをトレーニングする新しいDRL手法であるPathRLを提案する。
実験では,他のDRLナビゲーション法と比較して,PathRLは良好な成功率を示し,角度可変性を低下させる。
論文 参考訳(メタデータ) (2023-10-20T05:55:13Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Learning to Terminate in Object Navigation [16.164536630623644]
本稿では,自律ナビゲーションシステムにおけるオブジェクトナビゲーションの課題に対処する。
我々は、Depth-Inference Termination Agent(DITA)という新しいアプローチを提案する。
我々は、補助学習と並行して審査モデルを訓練し、報奨信号によって効率よく前者を監督する。
論文 参考訳(メタデータ) (2023-09-28T04:32:08Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robot Navigation with Reinforcement Learned Path Generation and
Fine-Tuned Motion Control [5.187605914580086]
未知の環境を事前に探索することなく,移動ロボットナビゲーションのための新しい強化学習ベースパス生成(RL-PG)手法を提案する。
シミュレーションと物理プラットフォームの両方にモデルをデプロイし,ロボットナビゲーションを効果的かつ安全に行うことを実証する。
論文 参考訳(メタデータ) (2022-10-19T15:10:52Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Rule-Based Reinforcement Learning for Efficient Robot Navigation with
Space Reduction [8.279526727422288]
本稿では,強化学習(RL)技術を用いた効率的なナビゲーションに焦点を当てた。
軌道を縮小するために減速ルールを採用し、冗長な探査空間を効果的に削減します。
ヘックスグリッド環境における実際のロボットナビゲーション問題に対する実験は、RuRLが航法性能を向上させることを実証している。
論文 参考訳(メタデータ) (2021-04-15T07:40:27Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。