論文の概要: Phone2Proc: Bringing Robust Robots Into Our Chaotic World
- arxiv url: http://arxiv.org/abs/2212.04819v1
- Date: Thu, 8 Dec 2022 18:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:36:49.601094
- Title: Phone2Proc: Bringing Robust Robots Into Our Chaotic World
- Title(参考訳): phone2proc:頑丈なロボットをカオスの世界に持ち込む
- Authors: Matt Deitke, Rose Hendrix, Luca Weihs, Ali Farhadi, Kiana Ehsani,
Aniruddha Kembhavi
- Abstract要約: Phone2Procは、10分間の電話スキャンと条件付き手続き生成を使用して、トレーニングシーンの分布を作成する方法である。
生成されたシーンは、壁のレイアウトとスキャンからの大きなオブジェクトの配置に条件付けされる。
Phone2Procは、sim-to-real ObjectNavのパフォーマンスで34.7%から70.7%に大幅に改善されている。
- 参考スコア(独自算出の注目度): 50.51598304564075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training embodied agents in simulation has become mainstream for the embodied
AI community. However, these agents often struggle when deployed in the
physical world due to their inability to generalize to real-world environments.
In this paper, we present Phone2Proc, a method that uses a 10-minute phone scan
and conditional procedural generation to create a distribution of training
scenes that are semantically similar to the target environment. The generated
scenes are conditioned on the wall layout and arrangement of large objects from
the scan, while also sampling lighting, clutter, surface textures, and
instances of smaller objects with randomized placement and materials.
Leveraging just a simple RGB camera, training with Phone2Proc shows massive
improvements from 34.7% to 70.7% success rate in sim-to-real ObjectNav
performance across a test suite of over 200 trials in diverse real-world
environments, including homes, offices, and RoboTHOR. Furthermore, Phone2Proc's
diverse distribution of generated scenes makes agents remarkably robust to
changes in the real world, such as human movement, object rearrangement,
lighting changes, or clutter.
- Abstract(参考訳): シミュレーションにおける具体化エージェントのトレーニングは、具体化aiコミュニティの主流となっている。
しかし、これらのエージェントは現実世界の環境に一般化できないため、物理的世界に展開する際にしばしば苦労する。
本稿では,10分間の電話スキャンと条件付き手続き生成を用いて,対象環境と意味的に類似したトレーニングシーンの分布を生成する手法であるphone2procを提案する。
生成されたシーンは、スキャンから大きなオブジェクトの壁のレイアウトと配置、そして照明、クラッタ、表面のテクスチャ、そしてランダムな配置と材料を備えた小さなオブジェクトの例をサンプリングする。
単純なRGBカメラを活用すれば、Phone2Procでのトレーニングは34.7%から70.7%に大幅に改善され、住宅、オフィス、RoboTHORを含む様々な現実世界環境において200以上の試行錯誤テストスイートを通じて、Sim-to-real ObjectNavのパフォーマンスが向上した。
さらに、Phone2Procが生成したシーンの多種多様な分布により、エージェントは人間の動き、物体の配置、照明の変化、乱れといった現実世界の変化に対して極めて堅牢である。
関連論文リスト
- Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse
Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。
本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文 参考訳(メタデータ) (2023-06-09T04:40:38Z) - RREx-BoT: Remote Referring Expressions with a Bag of Tricks [19.036557405184656]
本研究では,未観測環境における物体の探索に視覚言語スコアリングモデルを用いる方法を示す。
私たちは、我々のモデルを現実世界のTurtleBotプラットフォーム上でデモし、このアプローチの単純さと有用性を強調します。
本分析では,3次元座標と文脈の利用から,視覚言語モデルから大規模3次元検索空間への一般化に至るまで,この課題を達成する上で不可欠な「トリックの袋」を概説する。
論文 参考訳(メタデータ) (2023-01-30T02:19:19Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - An in-depth experimental study of sensor usage and visual reasoning of
robots navigating in real environments [20.105395754497202]
実物的エージェントの性能と推論能力について検討し、シミュレーションで訓練し、2つの異なる物理的環境に展開する。
我々は,PointGoalタスクに対して,多種多様なタスクを事前訓練し,対象環境の模擬バージョンを微調整したエージェントが,sim2real転送をモデル化せずに競争性能に達することを示す。
論文 参考訳(メタデータ) (2021-11-29T16:27:29Z) - Learning a State Representation and Navigation in Cluttered and Dynamic
Environments [6.909283975004628]
本稿では,四足ロボットによる局所ナビゲーションを実現するための学習ベースのパイプラインを提案する。
ロボットは、環境を明示的にマッピングすることなく、奥行きカメラのフレームに基づいて、安全な場所へ移動することができる。
本システムでは,ノイズの多い奥行き画像の処理が可能であり,訓練中の動的障害物を回避でき,局所的な空間意識を付与できることを示す。
論文 参考訳(メタデータ) (2021-03-07T13:19:06Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。