論文の概要: Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World
- arxiv url: http://arxiv.org/abs/2312.02976v1
- Date: Tue, 5 Dec 2023 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:35:16.259191
- Title: Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World
- Title(参考訳): 実世界における効果的なナビゲーションと操作を可能にするシミュレーションにおける最短経路の省略
- Authors: Kiana Ehsani, Tanmay Gupta, Rose Hendrix, Jordi Salvador, Luca Weihs,
Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti,
Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi
- Abstract要約: シミュレーションにおける最短経路プランナーの模倣は、オブジェクトを巧みにナビゲートし、探索し、操作できるエージェントを生み出すことを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
- 参考スコア(独自算出の注目度): 46.977470141707315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) with dense rewards and imitation learning (IL)
with human-generated trajectories are the most widely used approaches for
training modern embodied agents. RL requires extensive reward shaping and
auxiliary losses and is often too slow and ineffective for long-horizon tasks.
While IL with human supervision is effective, collecting human trajectories at
scale is extremely expensive. In this work, we show that imitating
shortest-path planners in simulation produces agents that, given a language
instruction, can proficiently navigate, explore, and manipulate objects in both
simulation and in the real world using only RGB sensors (no depth map or GPS
coordinates). This surprising result is enabled by our end-to-end,
transformer-based, SPOC architecture, powerful visual encoders paired with
extensive image augmentation, and the dramatic scale and diversity of our
training data: millions of frames of shortest-path-expert trajectories
collected inside approximately 200,000 procedurally generated houses containing
40,000 unique 3D assets. Our models, data, training code, and newly proposed
10-task benchmarking suite CHORES will be open-sourced.
- Abstract(参考訳): 濃密な報酬と模倣学習(il)を伴う強化学習(rl)は、現代実施エージェントの訓練に最も広く用いられている手法である。
RLは大規模な報酬形成と補助的損失を必要としており、長い水平作業では遅すぎるし効果がないことが多い。
人間の監督によるilは有効であるが、人間の軌道を大規模に収集することは極めて高価である。
本研究では,シミュレーションにおける最短パスプランナーの模倣により,言語指導を与えられたエージェントが,RGBセンサ(深度マップやGPS座標を含まない)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うことができることを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、大規模な画像拡張と組み合わせた強力なビジュアルエンコーダ、およびトレーニングデータの劇的なスケールと多様性によって実現されています。
当社のモデル,データ,トレーニングコード,新たに提案された10タスクベンチマークスイートであるCHORESがオープンソース化される予定です。
関連論文リスト
- ReProHRL: Towards Multi-Goal Navigation in the Real World using
Hierarchical Agents [1.3194749469702445]
本稿では、強化学習によって誘導される階層的マルチゴールナビゲーションでタスクを分割する生産階層RL(ReProHRL)について述べる。
また、物体検出装置を前処理のステップとして使用して、マルチゴールナビゲーションを学習し、それを現実世界に転送する。
実世界の実装と概念実証のために,提案手法をフロントカメラを用いたナノドローンCrzyflieに展開する。
論文 参考訳(メタデータ) (2023-08-17T02:23:59Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Deep reinforcement learning from human preferences [19.871618959160692]
我々は、軌道セグメントのペア間の人間の選好(非専門家)の観点から定義された目標を探索する。
提案手法は,報酬関数を使わずに複雑なRLタスクを効果的に解くことができることを示す。
これにより、人間の監視コストを十分に低減し、最先端のRLシステムに実用的に適用することができる。
論文 参考訳(メタデータ) (2017-06-12T17:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。