論文の概要: Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2601.21751v1
- Date: Thu, 29 Jan 2026 14:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.877964
- Title: Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation
- Title(参考訳): 動的トポロジ認識:視覚言語ナビゲーションにおける粒度剛性を破る
- Authors: Jiankun Peng, Jianyuan Guo, Ying Xu, Yue Liu, Jiashuang Yan, Xuanwei Ye, Houhua Li, Xiaoming Wang,
- Abstract要約: VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
- 参考スコア(独自算出の注目度): 22.876516699004814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation in Continuous Environments (VLN-CE) presents a core challenge: grounding high-level linguistic instructions into precise, safe, and long-horizon spatial actions. Explicit topological maps have proven to be a vital solution for providing robust spatial memory in such tasks. However, existing topological planning methods suffer from a "Granularity Rigidity" problem. Specifically, these methods typically rely on fixed geometric thresholds to sample nodes, which fails to adapt to varying environmental complexities. This rigidity leads to a critical mismatch: the model tends to over-sample in simple areas, causing computational redundancy, while under-sampling in high-uncertainty regions, increasing collision risks and compromising precision. To address this, we propose DGNav, a framework for Dynamic Topological Navigation, introducing a context-aware mechanism to modulate map density and connectivity on-the-fly. Our approach comprises two core innovations: (1) A Scene-Aware Adaptive Strategy that dynamically modulates graph construction thresholds based on the dispersion of predicted waypoints, enabling "densification on demand" in challenging environments; (2) A Dynamic Graph Transformer that reconstructs graph connectivity by fusing visual, linguistic, and geometric cues into dynamic edge weights, enabling the agent to filter out topological noise and enhancing instruction adherence. Extensive experiments on the R2R-CE and RxR-CE benchmarks demonstrate DGNav exhibits superior navigation performance and strong generalization capabilities. Furthermore, ablation studies confirm that our framework achieves an optimal trade-off between navigation efficiency and safe exploration. The code is available at https://github.com/shannanshouyin/DGNav.
- Abstract(参考訳): VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
しかし、既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
具体的には、これらの手法は一般に、様々な環境の複雑さに適応できないサンプルノードに対して、固定された幾何学的しきい値に依存する。
モデルは単純な領域でオーバーサンプリングし、計算の冗長性を引き起こし、高い不確実な領域ではアンダーサンプリングを行い、衝突リスクを増大させ、精度を向上する。
そこで本稿では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
提案手法は,(1)予測された経路点の分散に基づいて動的にグラフ構築しきい値を調整し,課題のある環境での「需要の密度化」を可能にするScene-Aware Adaptive Strategy,(2)視覚的,言語的,幾何学的キューを動的エッジウェイトに融合させてグラフ接続を再構築し,エージェントがトポロジ的ノイズを除去し,命令順守を強化するダイナミックグラフトランスフォーマである。
R2R-CEとRxR-CEベンチマークの大規模な実験は、DGNavが優れたナビゲーション性能と強力な一般化能力を示すことを示した。
さらに、アブレーション研究により、我々のフレームワークは航法効率と安全な探査のトレードオフを最適に達成できることを確認した。
コードはhttps://github.com/shannanshouyin/DGNav.comで入手できる。
関連論文リスト
- RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications [0.0]
PhysNav-DGは、古典的なセンサー融合と視覚言語モデルのセマンティックパワーを統合する新しいフレームワークである。
我々のデュアルブランチアーキテクチャは、マルチセンサー入力からナビゲーション動作を予測し、同時に詳細なチェーン・オブ・シークレットの説明を生成する。
論文 参考訳(メタデータ) (2025-05-03T17:59:26Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments [1.9566515100805284]
VLN-CEは、自然言語命令に基づいて連続空間をナビゲートするエージェントを必要とする。
本稿では,マルチグラニュラリティ認識と命令認識推論による性能向上を目的としたナビゲーションブースターST-Boosterを紹介する。
大規模な実験と性能解析を行い、ST-Boosterが既存の最先端手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-04-14T03:29:08Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Trajectory Prediction with Graph-based Dual-scale Context Fusion [43.51107329748957]
本稿では,Dual Scale Predictorというグラフベースの軌道予測ネットワークを提案する。
静的および動的駆動コンテキストを階層的にエンコードする。
提案したデュアルスケールコンテキスト融合ネットワークにより、DSPは正確で人間らしいマルチモーダル軌道を生成することができる。
論文 参考訳(メタデータ) (2021-11-02T13:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。