論文の概要: Phone2Proc: Bringing Robust Robots Into Our Chaotic World
- arxiv url: http://arxiv.org/abs/2212.04819v1
- Date: Thu, 8 Dec 2022 18:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:36:49.601094
- Title: Phone2Proc: Bringing Robust Robots Into Our Chaotic World
- Title(参考訳): phone2proc:頑丈なロボットをカオスの世界に持ち込む
- Authors: Matt Deitke, Rose Hendrix, Luca Weihs, Ali Farhadi, Kiana Ehsani,
Aniruddha Kembhavi
- Abstract要約: Phone2Procは、10分間の電話スキャンと条件付き手続き生成を使用して、トレーニングシーンの分布を作成する方法である。
生成されたシーンは、壁のレイアウトとスキャンからの大きなオブジェクトの配置に条件付けされる。
Phone2Procは、sim-to-real ObjectNavのパフォーマンスで34.7%から70.7%に大幅に改善されている。
- 参考スコア(独自算出の注目度): 50.51598304564075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training embodied agents in simulation has become mainstream for the embodied
AI community. However, these agents often struggle when deployed in the
physical world due to their inability to generalize to real-world environments.
In this paper, we present Phone2Proc, a method that uses a 10-minute phone scan
and conditional procedural generation to create a distribution of training
scenes that are semantically similar to the target environment. The generated
scenes are conditioned on the wall layout and arrangement of large objects from
the scan, while also sampling lighting, clutter, surface textures, and
instances of smaller objects with randomized placement and materials.
Leveraging just a simple RGB camera, training with Phone2Proc shows massive
improvements from 34.7% to 70.7% success rate in sim-to-real ObjectNav
performance across a test suite of over 200 trials in diverse real-world
environments, including homes, offices, and RoboTHOR. Furthermore, Phone2Proc's
diverse distribution of generated scenes makes agents remarkably robust to
changes in the real world, such as human movement, object rearrangement,
lighting changes, or clutter.
- Abstract(参考訳): シミュレーションにおける具体化エージェントのトレーニングは、具体化aiコミュニティの主流となっている。
しかし、これらのエージェントは現実世界の環境に一般化できないため、物理的世界に展開する際にしばしば苦労する。
本稿では,10分間の電話スキャンと条件付き手続き生成を用いて,対象環境と意味的に類似したトレーニングシーンの分布を生成する手法であるphone2procを提案する。
生成されたシーンは、スキャンから大きなオブジェクトの壁のレイアウトと配置、そして照明、クラッタ、表面のテクスチャ、そしてランダムな配置と材料を備えた小さなオブジェクトの例をサンプリングする。
単純なRGBカメラを活用すれば、Phone2Procでのトレーニングは34.7%から70.7%に大幅に改善され、住宅、オフィス、RoboTHORを含む様々な現実世界環境において200以上の試行錯誤テストスイートを通じて、Sim-to-real ObjectNavのパフォーマンスが向上した。
さらに、Phone2Procが生成したシーンの多種多様な分布により、エージェントは人間の動き、物体の配置、照明の変化、乱れといった現実世界の変化に対して極めて堅牢である。
関連論文リスト
- ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments [13.988804095409133]
本研究では,実世界のシーン,オブジェクト,部屋のレイアウトを取り入れたReALFREDベンチマークを提案する。
具体的には、視覚領域のギャップを小さくした環境空間を更新したALFREDベンチマークを拡張する。
ReALFREDでは、以前作られたALFREDベンチマークのメソッドを分析し、すべてのメトリクスで一貫して低いパフォーマンスが得られることを観察する。
論文 参考訳(メタデータ) (2024-07-26T07:00:27Z) - Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse
Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。
本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文 参考訳(メタデータ) (2023-06-09T04:40:38Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。