論文の概要: Self-Supervised Object Goal Navigation with In-Situ Finetuning
- arxiv url: http://arxiv.org/abs/2212.05923v2
- Date: Sun, 2 Apr 2023 01:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 23:43:21.789517
- Title: Self-Supervised Object Goal Navigation with In-Situ Finetuning
- Title(参考訳): その場ファインタニングによる自己監督対象目標ナビゲーション
- Authors: So Yeon Min, Yao-Hung Hubert Tsai, Wei Ding, Ali Farhadi, Ruslan
Salakhutdinov, Yonatan Bisk, Jian Zhang
- Abstract要約: この研究は、探検を通じて世界の自己監督モデルを構築するエージェントを構築する。
ObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョンのソースを特定します。
我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
- 参考スコア(独自算出の注目度): 110.6053241629366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A household robot should be able to navigate to target objects without
requiring users to first annotate everything in their home. Most current
approaches to object navigation do not test on real robots and rely solely on
reconstructed scans of houses and their expensively labeled semantic 3D meshes.
In this work, our goal is to build an agent that builds self-supervised models
of the world via exploration, the same as a child might - thus we (1) eschew
the expense of labeled 3D mesh and (2) enable self-supervised in-situ
finetuning in the real world. We identify a strong source of self-supervision
(Location Consistency - LocCon) that can train all components of an ObjectNav
agent, using unannotated simulated houses. Our key insight is that embodied
agents can leverage location consistency as a self-supervision signal -
collecting images from different views/angles and applying contrastive
learning. We show that our agent can perform competitively in the real world
and simulation. Our results also indicate that supervised training with 3D mesh
annotations causes models to learn simulation artifacts, which are not
transferrable to the real world. In contrast, our LocCon shows the most robust
transfer in the real world among the set of models we compare to, and that the
real-world performance of all models can be further improved with
self-supervised LocCon in-situ training.
- Abstract(参考訳): 家庭のロボットは、ユーザがまず自分の家のすべてを注釈付けしなくても、対象物にナビゲートできる。
現在のオブジェクトナビゲーションのアプローチは、実際のロボットではテストされておらず、住宅の復元されたスキャンと高価なラベル付きセマンティック3dメッシュのみに依存している。
本研究の目的は,(1)ラベル付き3dメッシュの費用を回避し,(2)実世界での自己監督型微調整を可能にする,探索を通じて世界の自己監督モデルを構築するエージェントを構築することである。
我々は、アノテーションのないシミュレートされた家を使ってObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョン(Location Consistency - LocCon)のソースを特定します。
私たちの重要な洞察は、エンボディエージェントは、異なるビュー/アングルからの画像を自己スーパービジョン信号として位置一貫性を活用し、コントラスト学習を適用することができるということです。
我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
また,3次元メッシュアノテーションを用いた教師付きトレーニングにより,実世界への転送が不可能なシミュレーションアーティファクトをモデルに学習させることが示唆された。
対照的に、われわれのLocConは、我々が比較したモデルの中で、現実世界で最も堅牢な移行を示しており、全てのモデルの実際の性能は、自己監督型のLocCon in-situトレーニングによってさらに改善できる。
関連論文リスト
- Stimulating Imagination: Towards General-purpose Object Rearrangement [2.0885207827639785]
汎用オブジェクト配置は、インテリジェントロボットの基本的な能力である。
我々はこの課題を達成するためにSPORTというフレームワークを提案する。
Sportは、物理的に現実的な結果を保証するために拡散に基づく3Dポーズ推定器を学習する。
シミュレーションと実世界の実験により、汎用オブジェクト再構成を実現するためのアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-08-03T03:53:05Z) - Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models [12.965144877139393]
本稿では、2Dデータに基づいてトレーニングされた視覚言語モデル(VLM)を3Dオブジェクト再構成パイプラインに統合するロボットフレームワークであるDream2Realを紹介する。
これは、ロボットがシーンの3D表現を自律的に構築し、オブジェクトを仮想的に再配置し、その結果の配置の画像を描画することで実現される。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
論文 参考訳(メタデータ) (2023-12-07T18:51:19Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。