論文の概要: Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation
- arxiv url: http://arxiv.org/abs/2507.04047v1
- Date: Sat, 05 Jul 2025 14:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.991106
- Title: Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation
- Title(参考訳): 3Dシーンの理解:視覚的接地と高能率・高精細な身体的ナビゲーションのための探索
- Authors: Ziyu Zhu, Xilin Wang, Yixuan Li, Zhuofan Zhang, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Wei Liang, Qian Yu, Zhidong Deng, Siyuan Huang, Qing Li,
- Abstract要約: 身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
- 参考スコア(独自算出の注目度): 54.04601077224252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied scene understanding requires not only comprehending visual-spatial information that has been observed but also determining where to explore next in the 3D physical world. Existing 3D Vision-Language (3D-VL) models primarily focus on grounding objects in static observations from 3D reconstruction, such as meshes and point clouds, but lack the ability to actively perceive and explore their environment. To address this limitation, we introduce \underline{\textbf{M}}ove \underline{\textbf{t}}o \underline{\textbf{U}}nderstand (\textbf{\model}), a unified framework that integrates active perception with \underline{\textbf{3D}} vision-language learning, enabling embodied agents to effectively explore and understand their environment. This is achieved by three key innovations: 1) Online query-based representation learning, enabling direct spatial memory construction from RGB-D frames, eliminating the need for explicit 3D reconstruction. 2) A unified objective for grounding and exploring, which represents unexplored locations as frontier queries and jointly optimizes object grounding and frontier selection. 3) End-to-end trajectory learning that combines \textbf{V}ision-\textbf{L}anguage-\textbf{E}xploration pre-training over a million diverse trajectories collected from both simulated and real-world RGB-D sequences. Extensive evaluations across various embodied navigation and question-answering benchmarks show that MTU3D outperforms state-of-the-art reinforcement learning and modular navigation approaches by 14\%, 23\%, 9\%, and 2\% in success rate on HM3D-OVON, GOAT-Bench, SG3D, and A-EQA, respectively. \model's versatility enables navigation using diverse input modalities, including categories, language descriptions, and reference images. These findings highlight the importance of bridging visual grounding and exploration for embodied intelligence.
- Abstract(参考訳): 身体的シーン理解には、観察された視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
既存の3Dビジョンランゲージ(3D-VL)モデルは、主にメッシュやポイントクラウドといった3D再構成からの静的な観測におけるオブジェクトの接地に焦点を当てているが、その環境を積極的に知覚し探索する能力は欠如している。
この制限に対処するために、我々は、環境を効果的に探索し理解することを可能にする、Shaunderline{\textbf{M}}ove \underline{\textbf{t}}o \underline{\textbf{U}}nderstand (\textbf{\model})を導入した。
これは3つの重要なイノベーションによって達成される。
1) RGB-Dフレームからの直接空間記憶構築を可能にするオンラインクエリに基づく表現学習により, 明示的な3次元再構成の必要性を排除した。
2)未探索の場所をフロンティアクエリとして表現し,オブジェクトの接地とフロンティア選択を協調的に最適化する,接地と探索の統一的な目的。
3) シミュレーションおよび実世界のRGB-Dシーケンスから収集した100万以上の多様な軌跡を事前学習する。
MTU3Dは, HM3D-OVON, GOAT-Bench, SG3D, A-EQAにおいて, それぞれ14\%, 23\%, 9\%, 2\%の成功率を達成している。
\modelの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
これらの知見は, 具体的知能に対する視覚的接地と探索の重要性を浮き彫りにする。
関連論文リスト
- AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。