論文の概要: Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World
- arxiv url: http://arxiv.org/abs/2312.02976v1
- Date: Tue, 5 Dec 2023 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:35:16.259191
- Title: Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World
- Title(参考訳): 実世界における効果的なナビゲーションと操作を可能にするシミュレーションにおける最短経路の省略
- Authors: Kiana Ehsani, Tanmay Gupta, Rose Hendrix, Jordi Salvador, Luca Weihs,
Kuo-Hao Zeng, Kunal Pratap Singh, Yejin Kim, Winson Han, Alvaro Herrasti,
Ranjay Krishna, Dustin Schwenk, Eli VanderBilt, Aniruddha Kembhavi
- Abstract要約: シミュレーションにおける最短経路プランナーの模倣は、オブジェクトを巧みにナビゲートし、探索し、操作できるエージェントを生み出すことを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
- 参考スコア(独自算出の注目度): 46.977470141707315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) with dense rewards and imitation learning (IL)
with human-generated trajectories are the most widely used approaches for
training modern embodied agents. RL requires extensive reward shaping and
auxiliary losses and is often too slow and ineffective for long-horizon tasks.
While IL with human supervision is effective, collecting human trajectories at
scale is extremely expensive. In this work, we show that imitating
shortest-path planners in simulation produces agents that, given a language
instruction, can proficiently navigate, explore, and manipulate objects in both
simulation and in the real world using only RGB sensors (no depth map or GPS
coordinates). This surprising result is enabled by our end-to-end,
transformer-based, SPOC architecture, powerful visual encoders paired with
extensive image augmentation, and the dramatic scale and diversity of our
training data: millions of frames of shortest-path-expert trajectories
collected inside approximately 200,000 procedurally generated houses containing
40,000 unique 3D assets. Our models, data, training code, and newly proposed
10-task benchmarking suite CHORES will be open-sourced.
- Abstract(参考訳): 濃密な報酬と模倣学習(il)を伴う強化学習(rl)は、現代実施エージェントの訓練に最も広く用いられている手法である。
RLは大規模な報酬形成と補助的損失を必要としており、長い水平作業では遅すぎるし効果がないことが多い。
人間の監督によるilは有効であるが、人間の軌道を大規模に収集することは極めて高価である。
本研究では,シミュレーションにおける最短パスプランナーの模倣により,言語指導を与えられたエージェントが,RGBセンサ(深度マップやGPS座標を含まない)のみを用いて,シミュレーションと現実世界の両方でオブジェクトの操作,探索,操作を行うことができることを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、大規模な画像拡張と組み合わせた強力なビジュアルエンコーダ、およびトレーニングデータの劇的なスケールと多様性によって実現されています。
当社のモデル,データ,トレーニングコード,新たに提案された10タスクベンチマークスイートであるCHORESがオープンソース化される予定です。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - ReProHRL: Towards Multi-Goal Navigation in the Real World using
Hierarchical Agents [1.3194749469702445]
本稿では、強化学習によって誘導される階層的マルチゴールナビゲーションでタスクを分割する生産階層RL(ReProHRL)について述べる。
また、物体検出装置を前処理のステップとして使用して、マルチゴールナビゲーションを学習し、それを現実世界に転送する。
実世界の実装と概念実証のために,提案手法をフロントカメラを用いたナノドローンCrzyflieに展開する。
論文 参考訳(メタデータ) (2023-08-17T02:23:59Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - Nocturne: a scalable driving benchmark for bringing multi-agent learning
one step closer to the real world [11.069445871185744]
部分観測可能性下でのマルチエージェント協調を調査するための新しい2次元駆動シミュレータである textitNocturne を導入する。
Nocturneの焦点は、コンピュータビジョンの計算オーバーヘッドや画像からの特徴抽出を伴わずに、実世界のマルチエージェント環境での推論と心の理論の研究を可能にすることである。
論文 参考訳(メタデータ) (2022-06-20T16:51:44Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。