論文の概要: ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings
- arxiv url: http://arxiv.org/abs/2206.12403v2
- Date: Fri, 13 Oct 2023 03:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 18:37:21.416618
- Title: ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings
- Title(参考訳): ZSON:マルチモーダルゴール埋め込みを用いたゼロショット目標ナビゲーション
- Authors: Arjun Majumdar, Gunjan Aggarwal, Bhavika Devnani, Judy Hoffman, Dhruv
Batra
- Abstract要約: オープンワールドオブジェクトゴールナビゲーション(ObjectNav)を学習するためのスケーラブルなアプローチを提案する。
このアプローチは完全にゼロショットです -- つまり、ObjectNavの報酬やデモは一切必要ありません。
- 参考スコア(独自算出の注目度): 43.65945397307492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a scalable approach for learning open-world object-goal navigation
(ObjectNav) -- the task of asking a virtual robot (agent) to find any instance
of an object in an unexplored environment (e.g., "find a sink"). Our approach
is entirely zero-shot -- i.e., it does not require ObjectNav rewards or
demonstrations of any kind. Instead, we train on the image-goal navigation
(ImageNav) task, in which agents find the location where a picture (i.e., goal
image) was captured. Specifically, we encode goal images into a multimodal,
semantic embedding space to enable training semantic-goal navigation
(SemanticNav) agents at scale in unannotated 3D environments (e.g., HM3D).
After training, SemanticNav agents can be instructed to find objects described
in free-form natural language (e.g., "sink", "bathroom sink", etc.) by
projecting language goals into the same multimodal, semantic embedding space.
As a result, our approach enables open-world ObjectNav. We extensively evaluate
our agents on three ObjectNav datasets (Gibson, HM3D, and MP3D) and observe
absolute improvements in success of 4.2% - 20.0% over existing zero-shot
methods. For reference, these gains are similar or better than the 5%
improvement in success between the Habitat 2020 and 2021 ObjectNav challenge
winners. In an open-world setting, we discover that our agents can generalize
to compound instructions with a room explicitly mentioned (e.g., "Find a
kitchen sink") and when the target room can be inferred (e.g., "Find a sink and
a stove").
- Abstract(参考訳): 我々は、オープンワールドのオブジェクトゴールナビゲーション(ObjectNav)を学ぶためのスケーラブルなアプローチを提示します -- 仮想ロボット(エージェント)に、探索されていない環境でオブジェクトのインスタンス(例:"find a sink")を見つけるように要求するタスクです。
このアプローチは完全にゼロショットです -- つまり、ObjectNavの報酬やデモは一切必要ありません。
代わりに、image-goal navigation (imagenav)タスクをトレーニングし、エージェントが画像(すなわち目標画像)がキャプチャされた場所を見つける。
具体的には、目標画像をマルチモーダルなセマンティック埋め込み空間にエンコードし、アノテーションのない3D環境(例えばHM3D)で意味ゴールナビゲーション(SemanticNav)エージェントを大規模に訓練できるようにする。
トレーニング後、SemanticNavエージェントは、言語目標を同じマルチモーダルでセマンティックな埋め込み空間に投影することで、自由形式の自然言語(例えば「シンク」や「バスルームシンク」など)で記述されたオブジェクトを見つけるように指示することができる。
その結果,オープンワールドのObjectNavが実現できた。
我々は,3つのObjectNavデータセット(Gibson,HM3D,MP3D)上でエージェントを広範囲に評価し,既存のゼロショット法よりも4.2%~20.0%の絶対的な改善を観察した。
参考までに、これらの利益は、habitat 2020と2021年のobjectnavチャレンジの勝者の間の5%の改善に匹敵する。
オープンワールドの環境では、我々のエージェントが明示的に述べた部屋(例えば「キッチンシンクを探す」)と、対象の部屋が推測できるとき(例えば「シンクとストーブを探す」)と組み合わせて命令を一般化できることを発見します。
関連論文リスト
- HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。
HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。
我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文 参考訳(メタデータ) (2024-09-22T02:12:29Z) - Prioritized Semantic Learning for Zero-shot Instance Navigation [2.537056548731396]
我々はゼロショットのインスタンスナビゲーションについて研究し、エージェントはトレーニングにオブジェクトアノテーションを使わずに特定のオブジェクトにナビゲートする。
本稿では,ナビゲーションエージェントのセマンティック理解能力を向上させるために,優先度付き意味学習(PSL)手法を提案する。
我々のPSLエージェントは、0ショットのObjectNavにおいて、0ショットのObjectNavを66%上回り、新しいInstanceNavタスクよりも優れている。
論文 参考訳(メタデータ) (2024-03-18T10:45:50Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Language-Based Augmentation to Address Shortcut Learning in Object Goal
Navigation [0.0]
ObjectNavにおけるショートカット学習の理解を深めることを目指しています。
本研究では,SOTA(State-of-the-art)のObjectNavメソッドを,そうでない環境へ一般化する過程を観察する。
エージェントは、対象物の部屋の関連する壁の色を単に検索することで、対象物へのナビゲートを学習する。
論文 参考訳(メタデータ) (2024-02-07T18:44:27Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-12-01T07:55:56Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。