論文の概要: NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction
- arxiv url: http://arxiv.org/abs/2512.01550v1
- Date: Mon, 01 Dec 2025 11:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.820468
- Title: NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction
- Title(参考訳): NavForesee:階層的計画とデュアル水平航法予測のための統合ビジョン言語世界モデル
- Authors: Fei Liu, Shichao Xie, Minghua Luo, Zedong Chu, Junjun Hu, Xiaolong Wu, Mu Xu,
- Abstract要約: 本稿では,高レベル言語計画と予測的世界モデルイマジネーションを統合するビジョン・ランゲージ・モデル(VLM)について紹介する。
我々のアプローチでは、単一のVLMが同時に計画と予測の監視を行うことができる。
私たちの研究は、暗黙の時間的予測で明示的な言語計画を融合させ、よりインテリジェントで有能なエンボディエージェントの道を開く、という大きな可能性を浮き彫りにしています。
- 参考スコア(独自算出の注目度): 12.352236127154761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied navigation for long-horizon tasks, guided by complex natural language instructions, remains a formidable challenge in artificial intelligence. Existing agents often struggle with robust long-term planning about unseen environments, leading to high failure rates. To address these limitations, we introduce NavForesee, a novel Vision-Language Model (VLM) that unifies high-level language planning and predictive world model imagination within a single, unified framework. Our approach empowers a single VLM to concurrently perform planning and predictive foresight. Conditioned on the full instruction and historical observations, the model is trained to understand the navigation instructions by decomposing the task, tracking its progress, and formulating the subsequent sub-goal. Simultaneously, it functions as a generative world model, providing crucial foresight by predicting short-term environmental dynamics and long-term navigation milestones. The VLM's structured plan guides its targeted prediction, while the imagined future provides rich context to inform the navigation actions, creating a powerful internal feedback loop of perception-planning/prediction-action. We demonstrate through extensive experiments on the R2R-CE and RxR-CE benchmark that NavForesee achieves highly competitive performance in complex scenarios. Our work highlights the immense potential of fusing explicit language planning with implicit spatiotemporal prediction, paving the way for more intelligent and capable embodied agents.
- Abstract(参考訳): 複雑な自然言語の指示によって導かれる長期作業のための身体的ナビゲーションは、人工知能において深刻な課題である。
既存のエージェントは、目に見えない環境に関する堅牢な長期計画に苦しむことが多く、高い失敗率につながる。
これらの制限に対処するため、我々は単一の統合フレームワーク内で高レベルの言語計画と予測的世界モデルの想像力を統一する新しいビジョン言語モデル(VLM)であるNavForeseeを紹介した。
我々のアプローチでは、単一のVLMが同時に計画と予測の監視を行うことができる。
このモデルは、完全な指示と歴史的観察に基づいて、タスクの分解、進捗の追跡、その後のサブゴールの定式化によってナビゲーション命令を理解するよう訓練されている。
同時に、生産的な世界モデルとして機能し、短期的な環境力学と長期的な航法マイルストーンを予測することにより、重要な監視を提供する。
VLMの構造化された計画は、目標とする予測を導く一方で、想像された未来は、ナビゲーションアクションを通知するためのリッチなコンテキストを提供し、知覚計画/予測アクションの強力な内部フィードバックループを生成する。
我々は、複雑なシナリオにおいて、NavForeseeが高い競争性能を達成するR2R-CEとRxR-CEベンチマークに関する広範な実験を通して実証する。
我々の研究は、明示的な言語プランニングを暗黙の時空間予測で融合させ、よりインテリジェントで有能なエンボディエージェントへの道を開く、という大きな可能性を浮き彫りにしている。
関連論文リスト
- VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Topological Planning with Transformers for Vision-and-Language
Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。
自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。
実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文 参考訳(メタデータ) (2020-12-09T20:02:03Z) - Evolving Graphical Planner: Contextual Global Planning for
Vision-and-Language Navigation [47.79784520827089]
Evolving Graphical Planner (EGP, Evolving Graphical Planner) は, 生の知覚入力に基づくナビゲーションのグローバルプランニングを行うモデルである。
本稿では,フォトリアリスティック画像を用いた視覚・言語ナビゲーション(VLN)タスクの課題について評価し,従来のナビゲーションアーキテクチャと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T00:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。