論文の概要: HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.12696v1
- Date: Fri, 13 Mar 2026 06:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.939097
- Title: HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation
- Title(参考訳): HaltNav:ロバストなビジョンランゲージナビゲーションのための軽量トポロジカル優先事項に対するリアクティブなビジュアルハルティング
- Authors: Pingcong Li, Zihui Yu, Bichi Zhang, Sören Schwertfeger,
- Abstract要約: VLN(Vision-and-Language Navigation)は、厳格なステップバイステップの指示から、オープンな語彙、ゴール指向の自律性へとシフトしている。
本稿では,OsmAGのロバストなグローバルプランニングと,VLNの局所探索と命令グラウンド機能を組み合わせた階層型ナビゲーションフレームワークHaltNavを提案する。
- 参考スコア(独自算出の注目度): 1.774434289475737
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-and-Language Navigation (VLN) is shifting from rigid, step-by-step instruction following toward open-vocabulary, goal-oriented autonomy. Achieving this transition without exhaustive routing prompts requires agents to leverage structural priors. While prior work often assumes computationally heavy 2D/3D metric maps, we instead exploit a lightweight, text-based osmAG (OpenStreetMap Area Graph), a floorplan-level topological representation that is easy to obtain and maintain. However, global planning over a prior map alone is brittle in real-world deployments, where local connectivity can change (e.g., closed doors or crowded passages), leading to execution-time failures. To address this gap, we propose a hierarchical navigation framework HaltNav that couples the robust global planning of osmAG with the local exploration and instruction-grounding capability of VLN. Our approach features an MLLM-based brain module, which is capable of high-level task grounding and obstruction awareness. Conditioned on osmAG, the brain converts the global route into a sequence of localized execution snippets, providing the VLN executor with prior-grounded, goal-centric sub-instructions. Meanwhile, it detects local anomalies via a mechanism we term Reactive Visual Halting (RVH), which interrupts the local control loop, updates osmAG by invalidating the corresponding topology, and triggers replanning to orchestrate a viable detour. To train this halting capability efficiently, we introduce a data synthesis pipeline that leverages generative models to inject realistic obstacles into otherwise navigable scenes, substantially enriching hard negative samples. Extensive experiments demonstrate that our hierarchical framework outperforms several baseline methods without tedious language instructions, and significantly improves robustness for long-horizon vision-language navigation under environmental changes.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、厳格なステップバイステップの指示から、オープンな語彙、ゴール指向の自律性へとシフトしている。
この移行を徹底的なルーティングプロンプトなしで達成するには、エージェントが構造的な事前情報を活用する必要がある。
従来の作業では計算量の多い2D/3Dメトリックマップが想定されることが多いが、代わりに、フロアプランレベルのトポロジ表現である軽量なテキストベースのosmAG(OpenStreetMap Area Graph)を利用する。
しかし、以前のマップのみに対するグローバルな計画は、ローカル接続(例えば、ドアを閉じたり、混み合った通路)を変更することができる実世界のデプロイメントでは不安定であり、実行時の障害につながる。
このギャップに対処するため、我々は、osmAGのロバストなグローバルプランニングとVLNのローカル探索とインストラクショングラウンド機能を組み合わせた階層型ナビゲーションフレームワークHaltNavを提案する。
本手法はMLLMをベースとした脳モジュールを特徴とし,高レベルなタスクグラウンドと障害物認識を実現する。
osmAGで条件付きで、脳はグローバルルートを局所的な実行スニペットのシーケンスに変換し、VLNエグゼキュータに事前の目標中心のサブインストラクションを提供する。
一方、ローカル制御ループを中断するReactive Visual Halting(RVH)と呼ばれるメカニズムを使用して、ローカル異常を検出し、対応するトポロジを無効にすることでosmAGを更新し、実行可能なデトゥーをオーケストレーションするリプランをトリガーする。
この停止能力を効果的に訓練するために、生成モデルを利用したデータ合成パイプラインを導入し、現実的な障害物をナビゲート可能なシーンに注入し、実質的に強い負のサンプルを濃縮する。
大規模な実験により,我々の階層的枠組みは,退屈な言語命令を伴わずにいくつかの基本的手法より優れており,環境変化下での長距離視覚言語ナビゲーションの堅牢性は著しく向上することが示された。
関連論文リスト
- R2F: Repurposing Ray Frontiers for LLM-free Object Navigation [1.4755786263360526]
VLM(Vision-Language Models)とLLM(Large Language Models)は、現在ではエンドツーエンドのポリシーではなく、ハイレベルな意思決定者として広く使われている。
室内でのオープン語彙オブジェクトナビゲーションのためのLLMフリーフレームワークを開発した。
Habitat-simおよび実際のロボットプラットフォームにおける実験は、リアルタイム実行による最先端のゼロショットパフォーマンスの競争力を示す。
論文 参考訳(メタデータ) (2026-03-09T15:10:10Z) - OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - RAGNav: A Retrieval-Augmented Topological Reasoning Framework for Multi-Goal Visual-Language Navigation [1.7508558850131373]
Vision-Language Navigation (VLN) は、シングルポイントパスフィンディングからより挑戦的なMulti-Goal VLNへと進化している。
RAGNavは意味論的推論と物理的構造の間のギャップを埋めるフレームワークである。
論文 参考訳(メタデータ) (2026-03-04T05:31:33Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals [10.69725316052444]
ゼロショット・ロングホライゾン・ロボットナビゲーションを可能にする新しいRGBのみのオブジェクトレベルのトポロジカルナビゲーションパイプラインを提案する。
提案手法は,グローバルなトポロジカルパス計画と局所的軌跡制御を統合し,障害物を避けつつ,ロボットがオブジェクトレベルのサブゴールに向かって移動できるようにする。
シミュレーション環境と実世界の両方のテストにおいて,本手法の有効性を実証し,その堅牢性とデプロイ性を強調した。
論文 参考訳(メタデータ) (2025-09-10T15:43:32Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - Vision and Language Navigation in the Real World via Online Visual
Language Mapping [18.769171505280127]
視覚・言語ナビゲーション(VLN)法は主にシミュレーションで評価される。
実世界のVLN課題に対処する新しい枠組みを提案する。
未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。
論文 参考訳(メタデータ) (2023-10-16T20:44:09Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。