論文の概要: Object Goal Navigation with End-to-End Self-Supervision
- arxiv url: http://arxiv.org/abs/2212.05923v1
- Date: Fri, 9 Dec 2022 03:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 18:15:02.090358
- Title: Object Goal Navigation with End-to-End Self-Supervision
- Title(参考訳): エンドツーエンドセルフスーパービジョンによるオブジェクトゴールナビゲーション
- Authors: So Yeon Min, Yao-Hung Hubert Tsai, Wei Ding, Ali Farhadi, Ruslan
Salakhutdinov, Yonatan Bisk, Jian Zhang
- Abstract要約: 家庭のロボットは、ユーザがまず自分の家にあるものすべてに注釈を付けることなく、ターゲットの場所へ移動できなければならない。
このオブジェクトナビゲーション課題に対する現在のアプローチは、実際のロボットをテストせず、高価なセマンティックラベル付き3Dメッシュに依存している。
本研究では, エンド・ツー・エンドの自己監督型エンボディエージェントを提案する。
- 参考スコア(独自算出の注目度): 110.6053241629366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A household robot should be able to navigate to target locations without
requiring users to first annotate everything in their home. Current approaches
to this object navigation challenge do not test on real robots and rely on
expensive semantically labeled 3D meshes. In this work, our aim is an agent
that builds self-supervised models of the world via exploration, the same as a
child might. We propose an end-to-end self-supervised embodied agent that
leverages exploration to train a semantic segmentation model of 3D objects, and
uses those representations to learn an object navigation policy purely from
self-labeled 3D meshes. The key insight is that embodied agents can leverage
location consistency as a supervision signal - collecting images from different
views/angles and applying contrastive learning to fine-tune a semantic
segmentation model. In our experiments, we observe that our framework performs
better than other self-supervised baselines and competitively with supervised
baselines, in both simulation and when deployed in real houses.
- Abstract(参考訳): 家庭のロボットは、ユーザがまず自分の家にあるものすべてに注釈を付けることなく、ターゲットの場所にナビゲートできる。
このオブジェクトナビゲーション課題に対する現在のアプローチは、実際のロボットをテストせず、高価なセマンティックラベル付き3Dメッシュに依存している。
本研究の目的は, 子どもと同じように, 探索を通して, 世界の自己監督モデルを構築するエージェントである。
本稿では,3次元オブジェクトのセマンティックセグメンテーションモデルを学習するために探索を活用し,その表現を用いて,自己ラベル付き3次元メッシュから純粋にオブジェクトナビゲーションポリシーを学習する,エンドツーエンドの自己管理型エボダイドエージェントを提案する。
重要な洞察は、エンボディエージェントが位置一貫性を監視信号として活用し、異なるビュー/アングルから画像を収集し、コントラスト学習を適用してセマンティックセグメンテーションモデルを微調整する。
実験では,我々のフレームワークは他の自制ベースラインよりも優れた性能を示し,シミュレーションと実家への展開の両方において,教師付きベースラインと競合する。
関連論文リスト
- Stimulating Imagination: Towards General-purpose Object Rearrangement [2.0885207827639785]
汎用オブジェクト配置は、インテリジェントロボットの基本的な能力である。
我々はこの課題を達成するためにSPORTというフレームワークを提案する。
Sportは、物理的に現実的な結果を保証するために拡散に基づく3Dポーズ推定器を学習する。
シミュレーションと実世界の実験により、汎用オブジェクト再構成を実現するためのアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-08-03T03:53:05Z) - Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language Models [12.965144877139393]
本稿では、2Dデータに基づいてトレーニングされた視覚言語モデル(VLM)を3Dオブジェクト再構成パイプラインに統合するロボットフレームワークであるDream2Realを紹介する。
これは、ロボットがシーンの3D表現を自律的に構築し、オブジェクトを仮想的に再配置し、その結果の配置の画像を描画することで実現される。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
論文 参考訳(メタデータ) (2023-12-07T18:51:19Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。