論文の概要: MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
- arxiv url: http://arxiv.org/abs/2511.10376v1
- Date: Fri, 14 Nov 2025 01:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.832416
- Title: MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
- Title(参考訳): MSGNav:マルチモーダルな3Dシーングラフを公開
- Authors: Xun Huang, Shijia Zhao, Yunxiang Wang, Xin Lu, Wanfa Zhang, Rongsheng Qu, Weixin Li, Yunhong Wang, Chenglu Wen,
- Abstract要約: 現実世界のデプロイメントには、オープンな語彙の一般化とトレーニングのオーバーヘッドの低減が必要だ。
明示的な3Dシーングラフを構築する既存のゼロショット法は、リッチな視覚的観察をテキストのみの関係に圧縮することが多い。
M3DSG(Multi-modal 3D Scene Graph)を導入し,テキストリレーショナルエッジを動的にアサインされた画像に置き換えることで視覚的手がかりを保存する。
MSGNavはGOAT-BenchとHM3D-OVONデータセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 42.4892002514681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied navigation is a fundamental capability for robotic agents operating. Real-world deployment requires open vocabulary generalization and low training overhead, motivating zero-shot methods rather than task-specific RL training. However, existing zero-shot methods that build explicit 3D scene graphs often compress rich visual observations into text-only relations, leading to high construction cost, irreversible loss of visual evidence, and constrained vocabularies. To address these limitations, we introduce the Multi-modal 3D Scene Graph (M3DSG), which preserves visual cues by replacing textual relational edges with dynamically assigned images. Built on M3DSG, we propose MSGNav, a zero-shot navigation system that includes a Key Subgraph Selection module for efficient reasoning, an Adaptive Vocabulary Update module for open vocabulary support, and a Closed-Loop Reasoning module for accurate exploration reasoning. Additionally, we further identify the last-mile problem in zero-shot navigation - determining the feasible target location with a suitable final viewpoint, and propose a Visibility-based Viewpoint Decision module to explicitly resolve it. Comprehensive experimental results demonstrate that MSGNav achieves state-of-the-art performance on GOAT-Bench and HM3D-OVON datasets. The open-source code will be publicly available.
- Abstract(参考訳): 身体的ナビゲーションはロボットエージェントの動作の基本機能である。
実世界の展開にはオープンな語彙の一般化と低いトレーニングオーバーヘッドが必要であり、タスク固有のRLトレーニングではなくゼロショットメソッドを動機付けている。
しかし、明示的な3Dシーングラフを構築する既存のゼロショット法は、リッチな視覚的観察をテキストのみの関係に圧縮し、高い建設コスト、不可逆的な視覚的証拠の喪失、制約付き語彙をもたらす。
これらの制約に対処するために,テキストリレーショナルエッジを動的に割り当てられた画像に置き換えることで視覚的手がかりを保存するM3DSG(Multi-modal 3D Scene Graph)を導入する。
M3DSG上に構築されたMSGNavは、効率的な推論のためのキーサブグラフ選択モジュール、オープン語彙支援のための適応語彙更新モジュール、正確な探索推論のためのクローズドループ推論モジュールを含むゼロショットナビゲーションシステムである。
さらに、ゼロショットナビゲーションにおける最終マイル問題として、適切な最終視点で実現可能な目標位置を判定し、それを明確に解決するための可視性に基づく視点決定モジュールを提案する。
総合的な実験結果から,MSGNavはGOAT-BenchとHM3D-OVONのデータセット上で最先端の性能を達成した。
オープンソースコードは一般公開される予定だ。
関連論文リスト
- Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。