論文の概要: Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation
- arxiv url: http://arxiv.org/abs/2306.06192v3
- Date: Mon, 2 Oct 2023 21:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 11:00:14.730483
- Title: Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation
- Title(参考訳): Ada-NAV:ロボットナビゲーションのための適応軌道に基づく効率的な政策学習
- Authors: Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M.
Sadler, Tianyi Zhou, Amrit Singh Bedi and Dinesh Manocha
- Abstract要約: Ada-NAVは、ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。
我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れているというシミュレーションと実世界のロボット実験を通して実証する。
- 参考スコア(独自算出の注目度): 75.36145696421038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has gained significant traction in the field of
robotic navigation. However, a persistent challenge is its sample inefficiency,
primarily due to the inherent complexities of encouraging exploration. During
training, the mobile agent must explore as much as possible to efficiently
learn optimal behaviors. We introduce Ada-NAV, a novel adaptive trajectory
length scheme designed to enhance the training sample efficiency of
reinforcement learning algorithms in robotic navigation tasks. Unlike
traditional approaches that treat trajectory length as a fixed hyperparameter,
Ada-NAV dynamically adjusts it based on the entropy of the underlying
navigation policy. We empirically validate the efficacy of AdaNAV using two
popular policy gradient methods: REINFORCE and Proximal Policy Optimization
(PPO). We demonstrate through both simulated and real-world robotic experiments
that Ada-NAV outperforms conventional methods that employ constant or randomly
sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV
achieves an 18% increase in navigation success rate, a 20-38% reduction in
navigation path length, and a 9.32% decrease in elevation costs. Furthermore,
we showcase the versatility of Ada-NAV by integrating it with the Clearpath
Husky robot, illustrating its applicability in complex, outdoor environments.
- Abstract(参考訳): 強化学習はロボットナビゲーションの分野で大きな注目を集めている。
しかし、絶え間ない課題はサンプルの非効率であり、主に探検を促進する固有の複雑さによるものである。
トレーニング中、移動エージェントは最適な振る舞いを効率的に学習するために可能な限り探索する必要がある。
本稿では,ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために,新しい適応軌道長スキームであるAda-NAVを紹介する。
軌道長を固定されたハイパーパラメータとして扱う従来のアプローチとは異なり、Ada-NAVは下層のナビゲーションポリシーのエントロピーに基づいて動的に調整する。
本稿では,2つのポリシ勾配法であるREINFORCEとPPOを用いて,AdaNAVの有効性を実証的に検証する。
シミュレーションと実世界のロボット実験により,ada-navは,一定またはランダムにサンプリングされた軌道長を用いた従来の手法を上回っていることを実証した。
具体的には、一定のサンプル予算に対して、ada-navはナビゲーション成功率を18%増加させ、ナビゲーション経路の長さを20-38%減少させ、標高コストを9.32%減少させる。
さらに, ada-navをclearpath huskyロボットに統合し, 複雑な屋外環境に適用性を示すことにより, 汎用性を示す。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Angle Robustness Unmanned Aerial Vehicle Navigation in GNSS-Denied
Scenarios [66.05091704671503]
本稿では、ポイントツーポイントナビゲーションタスクにおける飛行偏差に対処する新しい角度ナビゲーションパラダイムを提案する。
また、Adaptive Feature Enhance Module、Cross-knowledge Attention-guided Module、Robust Task-oriented Head Moduleを含むモデルを提案する。
論文 参考訳(メタデータ) (2024-02-04T08:41:20Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Holistic Deep-Reinforcement-Learning-based Training of Autonomous
Navigation Systems [4.409836695738518]
Deep Reinforcement Learningは、地上車両の自律的なナビゲーションのための有望なアプローチとして登場した。
本稿では,ナビゲーションスタックの全要素を含む総合的な深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-06T16:52:15Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Using Deep Reinforcement Learning with Automatic Curriculum earning for
Mapless Navigation in Intralogistics [0.7633618497843278]
本稿では,倉庫シナリオにおけるマップレスナビゲーション問題を解決するための深層強化学習手法を提案する。
自動誘導車両は、LiDARと前頭RGBセンサーを備え、目標のドームの下に到達することを学ぶ。
NavACL-Qは、学習プロセス全体を大幅に促進し、事前訓練された特徴抽出器は、トレーニング速度を顕著に向上させる。
論文 参考訳(メタデータ) (2022-02-23T13:50:01Z) - Human-Aware Robot Navigation via Reinforcement Learning with Hindsight
Experience Replay and Curriculum Learning [28.045441768064215]
強化学習アプローチは、シーケンシャルな意思決定問題を解決する優れた能力を示している。
本研究では,実演データを使わずにRLエージェントを訓練する作業を検討する。
密集層における最適なナビゲーションポリシーを効率的に学習するために,後視体験リプレイ(HER)とカリキュラム学習(CL)技術をRLに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-10-09T13:18:11Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。