論文の概要: Hierarchical Semantic-Augmented Navigation: Optimal Transport and Graph-Driven Reasoning for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2606.01565v1
- Date: Mon, 01 Jun 2026 02:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.868289
- Title: Hierarchical Semantic-Augmented Navigation: Optimal Transport and Graph-Driven Reasoning for Vision-Language Navigation
- Title(参考訳): 階層型セマンティック拡張ナビゲーション:視覚言語ナビゲーションのための最適輸送とグラフ駆動推論
- Authors: Xiang Fang, Wanlong Fang, Changshuo Wang,
- Abstract要約: VLN-CE(Vision-Language Navigation in Continuous Environments)は、自律的なエージェントに深刻な課題をもたらす。
既存のアプローチは、シーン理解の制限、非効率な計画、堅牢な意思決定フレームワークの欠如など、長期的なタスクでしばしば失敗する。
我々は、VLN-CEを3つの相乗的革新によって再定義する画期的なアプローチである textbfHierarchical Semantic-Augmented Navigation (HSAN) フレームワークを紹介した。
- 参考スコア(独自算出の注目度): 15.851694572297612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation in Continuous Environments (VLN-CE) poses a formidable challenge for autonomous agents, requiring seamless integration of natural language instructions and visual observations to navigate complex 3D indoor spaces. Existing approaches often falter in long-horizon tasks due to limited scene understanding, inefficient planning, and lack of robust decision-making frameworks. We introduce the \textbf{Hierarchical Semantic-Augmented Navigation (HSAN)} framework, a groundbreaking approach that redefines VLN-CE through three synergistic innovations. First, HSAN constructs a dynamic hierarchical semantic scene graph, leveraging vision-language models to capture multi-level environmental representations, from objects to regions to zones, enabling nuanced spatial reasoning. Second, it employs an optimal transport-based topological planner, grounded in Kantorovich's duality, to select long-term goals by balancing semantic relevance and spatial accessibility with theoretical guarantees of optimality. Third, a graph-aware reinforcement learning policy ensures precise low-level control, navigating subgoals while robustly avoiding obstacles. By integrating spectral graph theory, optimal transport, and advanced multi-modal learning, HSAN addresses the shortcomings of static maps and heuristic planners prevalent in prior work. Extensive experiments on multiple challenging VLN-CE datasets demonstrate that HSAN achieves state-of-the-art performance, with significant improvements in navigation success and generalization to unseen environments.
- Abstract(参考訳): VLN-CE(Vision-Language Navigation in Continuous Environments)は、複雑な3D屋内空間をナビゲートするために、自然言語命令と視覚的な観察をシームレスに統合する必要がある、自律的なエージェントにとって、非常に困難な課題である。
既存のアプローチは、シーン理解の制限、非効率な計画、堅牢な意思決定フレームワークの欠如など、長期的なタスクでしばしば失敗する。
本稿では,VLN-CE を3つの相乗的革新によって再定義する基盤的アプローチである HSAN (textbf{Hierarchical Semantic-Augmented Navigation) フレームワークを紹介する。
まず、HSANは動的階層的セマンティック・シーングラフを構築し、視覚言語モデルを利用して、オブジェクトから領域、ゾーンに至るまで、複数のレベルの環境表現をキャプチャし、微妙な空間的推論を可能にする。
第二に、カンロビッチの双対性に基づく最適輸送に基づくトポロジカルプランナーを用いて、意味的関連性と空間的アクセシビリティを最適性の理論的保証とバランスさせることにより、長期目標を選択する。
第3に、グラフ対応強化学習政策は、障害を頑健に回避しつつ、サブゴールをナビゲートする、正確な低レベル制御を保証する。
スペクトルグラフ理論、最適輸送、高度なマルチモーダル学習を統合することで、HSANは静的マップとヒューリスティックプランナーの欠点に対処する。
複数の挑戦的なVLN-CEデータセットに関する大規模な実験は、HSANが最先端のパフォーマンスを実現し、ナビゲーションの成功と目に見えない環境への一般化が大幅に改善されたことを示している。
関連論文リスト
- AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control [20.1849703990752]
無人航空機(UAV)のための視覚言語ナビゲーション(VLN)は複雑な視覚的解釈と3D環境の連続的な制御を必要とする。
AerialVLAは、生の視覚観察とファジィ言語指示を直接連続的な物理制御信号にマッピングする、最小限のエンドツーエンドビジョン・ランゲージ・アクション・フレームワークである。
論文 参考訳(メタデータ) (2026-03-15T13:02:13Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation [22.876516699004814]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、高レベルの言語命令を正確で安全で長期の空間行動に基礎付けるという、中核的な課題を提示している。
露骨なトポロジカルマップは、そのようなタスクにおいて堅牢な空間記憶を提供するための重要な解決策であることが証明されている。
既存のトポロジカルプランニング手法は、"Granularity Rigidity"問題に悩まされている。
本研究では,動的トポロジカルナビゲーションのためのフレームワークであるDGNavを提案する。
論文 参考訳(メタデータ) (2026-01-29T14:06:23Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。