論文の概要: DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.21269v1
- Date: Sun, 22 Mar 2026 14:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.317929
- Title: DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation
- Title(参考訳): DyGeoVLN:動的幾何学基礎モデルによる視覚言語ナビゲーション
- Authors: Xiangchen Liu, Hanghan Zheng, Jeil Jeong, Minsung Yoon, Lin Zhao, Zhide Zhong, Haoang Li, Sung-Eui Yoon,
- Abstract要約: 視覚言語ナビゲーション(VLN)は、視覚的な観察と、見えない環境でのナビゲーションを行うための言語指示を理解するエージェントを必要とする。
既存のアプローチのほとんどは静的シーンの仮定に依存しており、動的で現実的なシナリオを一般化するのに苦労している。
動的幾何学を意識したVLNフレームワークであるDyGeoVLNを提案する。
- 参考スコア(独自算出の注目度): 19.94547112119204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language Navigation (VLN) requires an agent to understand visual observations and language instructions to navigate in unseen environments. Most existing approaches rely on static scene assumptions and struggle to generalize in dynamic, real-world scenarios. To address this challenge, we propose DyGeoVLN, a dynamic geometry-aware VLN framework. Our method infuses a dynamic geometry foundation model into the VLN framework through cross-branch feature fusion to enable explicit 3D spatial representation and visual-semantic reasoning. To efficiently compress historical token information in long-horizon, dynamic navigation, we further introduce a novel pose-free and adaptive-resolution token-pruning strategy. This strategy can remove spatio-temporal redundant tokens to reduce inference cost. Extensive experiments demonstrate that our approach achieves state-of-the-art performance on multiple benchmarks and exhibits strong robustness in real-world environments.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、視覚的な観察と、見えない環境でのナビゲーションを行うための言語指示を理解するエージェントを必要とする。
既存のアプローチのほとんどは静的シーンの仮定に依存しており、動的で現実的なシナリオを一般化するのに苦労している。
この課題に対処するため,動的幾何対応VLNフレームワークであるDyGeoVLNを提案する。
本手法は,3次元空間表現と視覚的意味論的推論を可能にするために,クロスブランチ機能融合により動的幾何学基礎モデルをVLNフレームワークに注入する。
長期的動的ナビゲーションにおいて,歴史的トークン情報を効率的に圧縮するために,新しいポーズフリーかつ適応的トークン抽出戦略を導入する。
この戦略は、時空間の冗長トークンを取り除き、推論コストを削減できる。
大規模な実験により,本手法は複数のベンチマーク上での最先端性能を実現し,実環境において強靭性を示すことが示された。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos [87.15961946494629]
本稿では,Web ベースのルームツアービデオから派生した大規模ビデオ教育フレームワークを提案する。
既存のデータセットとは異なり、我々のフレームワークは3Dで再構成されたオープンエンドな記述リッチな軌跡とアクションリッチな軌跡を統合している。
この研究の鍵となる拡張は暗黙の幾何学的表現の取り込みであり、それは、脆弱な3D再構成を必要とせず、RGBフレームから直接空間的手がかりを抽出するものである。
論文 参考訳(メタデータ) (2026-03-10T06:47:38Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - Beyond Pixels: Introducing Geometric-Semantic World Priors for Video-based Embodied Models via Spatio-temporal Alignment [2.9493863710375674]
VEMEは、未知の環境における複雑なタスクのためのディープラーニングモデルにおいて、人間のような推論を実現するための新しい方法である。
本フレームワークは,(1)オブジェクト,空間表現,視覚的意味論を時間的手がかりでブリッジするクロスランゲージアライメントフレームワーク,(2)タスク関連メモリリコールを可能にする動的で暗黙的な認知活性化世界埋め込み,(3)長期計画と効率的な探索のための指示に基づくナビゲーションと推論の3つの重要な構成要素を統合する。
論文 参考訳(メタデータ) (2025-08-29T19:47:25Z) - Robust Visual Localization via Semantic-Guided Multi-Scale Transformer [3.3106947066548167]
マルチスケール特徴学習とセマンティックシーン理解を組み合わせたフレームワークを提案する。
本手法では, 空間的変化に適応しつつ, 空間的精度を保ちながら, 幾何学的詳細と文脈的手がかりを融合する階層変換器を用いる。
論文 参考訳(メタデータ) (2025-06-10T07:44:53Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。