論文の概要: An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor
Robot Navigation
- arxiv url: http://arxiv.org/abs/2101.01774v1
- Date: Tue, 5 Jan 2021 20:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:26:21.805575
- Title: An A* Curriculum Approach to Reinforcement Learning for RGBD Indoor
Robot Navigation
- Title(参考訳): RGBD屋内ロボットナビゲーションのための強化学習のためのA*カリキュラムアプローチ
- Authors: Kaushik Balakrishnan, Punarjay Chakravarty, Shubham Shrivastava
- Abstract要約: 最近リリースされたhabitatのようなフォトリアリスティックシミュレータは、知覚から直接制御アクションを出力するネットワークのトレーニングを可能にする。
本稿では,知覚の訓練とニューラルネットの制御を分離し,経路の複雑さを徐々に増すことにより,この問題を克服しようとする。
- 参考スコア(独自算出の注目度): 6.660458629649825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training robots to navigate diverse environments is a challenging problem as
it involves the confluence of several different perception tasks such as
mapping and localization, followed by optimal path-planning and control.
Recently released photo-realistic simulators such as Habitat allow for the
training of networks that output control actions directly from perception:
agents use Deep Reinforcement Learning (DRL) to regress directly from the
camera image to a control output in an end-to-end fashion. This is
data-inefficient and can take several days to train on a GPU. Our paper tries
to overcome this problem by separating the training of the perception and
control neural nets and increasing the path complexity gradually using a
curriculum approach. Specifically, a pre-trained twin Variational AutoEncoder
(VAE) is used to compress RGBD (RGB & depth) sensing from an environment into a
latent embedding, which is then used to train a DRL-based control policy. A*, a
traditional path-planner is used as a guide for the policy and the distance
between start and target locations is incrementally increased along the A*
route, as training progresses. We demonstrate the efficacy of the proposed
approach, both in terms of increased performance and decreased training times
for the PointNav task in the Habitat simulation environment. This strategy of
improving the training of direct-perception based DRL navigation policies is
expected to hasten the deployment of robots of particular interest to industry
such as co-bots on the factory floor and last-mile delivery robots.
- Abstract(参考訳): 多様な環境をナビゲートするためのロボットの訓練は、マッピングやローカライゼーションといった複数の異なる知覚タスクの合流と、最適な経路計画と制御を伴う、難しい問題である。
エージェントはDeep Reinforcement Learning(DRL)を使用して、カメライメージから直接エンドツーエンドで制御出力に回帰する。
これはデータ非効率で、GPUでトレーニングするのに数日かかります。
本稿では,ニューラルネットワークの認識と制御の訓練を分離し,カリキュラムアプローチを用いて経路の複雑さを徐々に増大させることにより,この問題を克服しようとする。
具体的には、事前訓練された双子の変分オートエンコーダ(VAE)を用いて環境からのRGBD(RGB & depth)センシングを遅延埋め込みに圧縮し、DRLベースの制御ポリシーをトレーニングする。
A*は、従来のパスプランナをポリシーのガイドとして使用し、トレーニングが進むにつれて、A*経路に沿って開始位置と目標位置の距離が漸増する。
本研究では,提案手法の有効性を,居住環境におけるpointnavタスクの訓練時間の短縮と性能向上の両面から実証する。
直感に基づくDRLナビゲーションポリシーのトレーニングを改善するこの戦略は、工場フロアのコボットやラストマイル配送ロボットといった産業に特に関心を持つロボットの展開を加速させるものと期待されている。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - PathRL: An End-to-End Path Generation Method for Collision Avoidance via
Deep Reinforcement Learning [16.397594417992483]
本稿では,ロボットのナビゲーション経路を生成するためのポリシーをトレーニングする新しいDRL手法であるPathRLを提案する。
実験では,他のDRLナビゲーション法と比較して,PathRLは良好な成功率を示し,角度可変性を低下させる。
論文 参考訳(メタデータ) (2023-10-20T05:55:13Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。