論文の概要: D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation
- arxiv url: http://arxiv.org/abs/2512.12622v1
- Date: Sun, 14 Dec 2025 09:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.349958
- Title: D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation
- Title(参考訳): D3D-VLP: 身体的接地とナビゲーションのための動的3次元ビジョンランゲージ・プランニングモデル
- Authors: Zihan Wang, Seungjun Lee, Guangzhao Dai, Gim Hee Lee,
- Abstract要約: エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
- 参考スコア(独自算出の注目度): 66.7166217399105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents face a critical dilemma that end-to-end models lack interpretability and explicit 3D reasoning, while modular systems ignore cross-component interdependencies and synergies. To bridge this gap, we propose the Dynamic 3D Vision-Language-Planning Model (D3D-VLP). Our model introduces two key innovations: 1) A Dynamic 3D Chain-of-Thought (3D CoT) that unifies planning, grounding, navigation, and question answering within a single 3D-VLM and CoT pipeline; 2) A Synergistic Learning from Fragmented Supervision (SLFS) strategy, which uses a masked autoregressive loss to learn from massive and partially-annotated hybrid data. This allows different CoT components to mutually reinforce and implicitly supervise each other. To this end, we construct a large-scale dataset with 10M hybrid samples from 5K real scans and 20K synthetic scenes that are compatible with online learning methods such as RL and DAgger. Our D3D-VLP achieves state-of-the-art results on multiple benchmarks, including Vision-and-Language Navigation (R2R-CE, REVERIE-CE, NavRAG-CE), Object-goal Navigation (HM3D-OVON), and Task-oriented Sequential Grounding and Navigation (SG3D). Real-world mobile manipulation experiments further validate the effectiveness.
- Abstract(参考訳): エンボディードエージェントは、エンドツーエンドモデルには解釈可能性と明示的な3D推論が欠けているという批判的なジレンマに直面し、一方モジュールシステムは、コンポーネント間の相互依存やシナジーを無視している。
このギャップを埋めるために,ダイナミック3Dビジョンランゲージ・プランニングモデル(D3D-VLP)を提案する。
私たちのモデルは2つの重要なイノベーションを紹介します。
1) 計画,接地,ナビゲーション,質問応答を単一の3D-VLM及びCoTパイプライン内に統一する動的3Dチェーン(3D CoT)
2)大規模かつ部分的に注釈付けされたハイブリッドデータから学習するために,マスク付き自己回帰損失を用いたSLFS(Synergistic Learning from Fragmented Supervision)戦略。
これにより、異なるCoTコンポーネントが相互に強化され、暗黙的に監督される。
そこで本研究では,RL や DAgger などのオンライン学習手法と互換性のある 5K 実スキャンと 20K 合成シーンから 10M のハイブリッドサンプルを合成した大規模データセットを構築した。
我々のD3D-VLPは、R2R-CE、REVERIE-CE、NavRAG-CE、Object-goal Navigation(HM3D-OVON)、Task-oriented Sequential Grounding and Navigation(SG3D)など、複数のベンチマークで最先端の結果が得られる。
実世界のモバイル操作実験は、その効果をさらに検証する。
関連論文リスト
- TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。