論文の概要: EmergeNav: Structured Embodied Inference for Zero-Shot Vision-and-Language Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2603.16947v1
- Date: Mon, 16 Mar 2026 14:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.29002
- Title: EmergeNav: Structured Embodied Inference for Zero-Shot Vision-and-Language Navigation in Continuous Environments
- Title(参考訳): EmergeNav: 連続環境におけるゼロショットビジョンとランゲージナビゲーションのための構造的身体的推論
- Authors: Kun Luo, Xiaoguang Ma,
- Abstract要約: 重要なボトルネックは知識の欠如ではなく,指示の体系化,知覚的基礎化,時間的進歩,ステージ検証といった実行構造が欠落している,と我々は主張する。
構造的具体的推論として連続VLNを定式化するゼロショットフレームワークであるEmergeNavを提案する。
VLN-CEでは、EmergeNavはオープンソースのVLMバックボーンのみを使用し、タスク固有のトレーニング、明示的なマップ、グラフ検索、ウェイポイント予測子を使用せずに、強力なゼロショットパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 9.501082922618542
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-shot vision-and-language navigation in continuous environments (VLN-CE) remains challenging for modern vision-language models (VLMs). Although these models encode useful semantic priors, their open-ended reasoning does not directly translate into stable long-horizon embodied execution. We argue that the key bottleneck is not missing knowledge alone, but missing an execution structure for organizing instruction following, perceptual grounding, temporal progress, and stage verification. We propose EmergeNav, a zero-shot framework that formulates continuous VLN as structured embodied inference. EmergeNav combines a Plan--Solve--Transition hierarchy for stage-structured execution, GIPE for goal-conditioned perceptual extraction, contrastive dual-memory reasoning for progress grounding, and role-separated Dual-FOV sensing for time-aligned local control and boundary verification. On VLN-CE, EmergeNav achieves strong zero-shot performance using only open-source VLM backbones and no task-specific training, explicit maps, graph search, or waypoint predictors, reaching 30.00 SR with Qwen3-VL-8B and 37.00 SR with Qwen3-VL-32B. These results suggest that explicit execution structure is a key ingredient for turning VLM priors into stable embodied navigation behavior.
- Abstract(参考訳): 連続環境(VLN-CE)におけるゼロショット視覚言語ナビゲーションは、現代の視覚言語モデル(VLM)では依然として困難である。
これらのモデルは有用なセマンティックプリエントを符号化するが、そのオープンな推論は直接的に安定なロングホライゾンエンボディ実行に変換しない。
重要なボトルネックは知識の欠如ではなく,指示の体系化,知覚的基礎化,時間的進歩,ステージ検証といった実行構造が欠落している,と我々は主張する。
構造的具体的推論として連続VLNを定式化するゼロショットフレームワークであるEmergeNavを提案する。
EmergeNavは、段階的構造化実行のためのPlan-Solve-Transition階層、目標条件付き知覚抽出のためのGIPE、進行グラウンドのためのコントラスト二重メモリ推論、時間的な局所制御と境界検証のためのロール分離されたDual-FOVセンシングを組み合わせた。
VLN-CEでは、EmergeNavはオープンソースのVLMバックボーンのみを使用し、タスク固有のトレーニング、明示的なマップ、グラフ検索、ウェイポイント予測器を用いず、Qwen3-VL-8Bで30.00 SR、Qwen3-VL-32Bで37.00 SRに達する。
これらの結果から, 明示的実行構造がVLM先行動作を安定なナビゲーション動作に変換する鍵となることが示唆された。
関連論文リスト
- AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control [20.1849703990752]
無人航空機(UAV)のための視覚言語ナビゲーション(VLN)は複雑な視覚的解釈と3D環境の連続的な制御を必要とする。
AerialVLAは、生の視覚観察とファジィ言語指示を直接連続的な物理制御信号にマッピングする、最小限のエンドツーエンドビジョン・ランゲージ・アクション・フレームワークである。
論文 参考訳(メタデータ) (2026-03-15T13:02:13Z) - HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation [1.774434289475737]
VLN(Vision-and-Language Navigation)は、厳格なステップバイステップの指示から、オープンな語彙、ゴール指向の自律性へとシフトしている。
本稿では,OsmAGのロバストなグローバルプランニングと,VLNの局所探索と命令グラウンド機能を組み合わせた階層型ナビゲーションフレームワークHaltNavを提案する。
論文 参考訳(メタデータ) (2026-03-13T06:22:35Z) - ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。
現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。
テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:06:37Z) - VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.00474922315126]
未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文 参考訳(メタデータ) (2025-09-23T03:23:03Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。