論文の概要: NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments
- arxiv url: http://arxiv.org/abs/2506.23468v1
- Date: Mon, 30 Jun 2025 02:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.894055
- Title: NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments
- Title(参考訳): NavMorph: 継続的環境における視覚・言語ナビゲーションのための自己進化型世界モデル
- Authors: Xuan Yao, Junyu Gao, Changsheng Xu,
- Abstract要約: VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。
人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
- 参考スコア(独自算出の注目度): 67.18144414660681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation in Continuous Environments (VLN-CE) requires agents to execute sequential navigation actions in complex environments guided by natural language instructions. Current approaches often struggle with generalizing to novel environments and adapting to ongoing changes during navigation. Inspired by human cognition, we present NavMorph, a self-evolving world model framework that enhances environmental understanding and decision-making in VLN-CE tasks. NavMorph employs compact latent representations to model environmental dynamics, equipping agents with foresight for adaptive planning and policy refinement. By integrating a novel Contextual Evolution Memory, NavMorph leverages scene-contextual information to support effective navigation while maintaining online adaptability. Extensive experiments demonstrate that our method achieves notable performance improvements on popular VLN-CE benchmarks. Code is available at \href{https://github.com/Feliciaxyao/NavMorph}{this https URL}.
- Abstract(参考訳): VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。
現在のアプローチはしばしば、新しい環境への一般化と、ナビゲーション中に進行中の変化に適応することに苦労する。
人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
NavMorphは、環境力学をモデル化するためにコンパクトな潜在表現を使用し、適応的な計画と政策改善のための監視エージェントを装備している。
新たなContextual Evolution Memoryを統合することで、NavMorphはシーンコンテキスト情報を活用し、オンライン適応性を維持しながら効果的なナビゲーションをサポートする。
広汎な実験により,VLN-CEベンチマークにおいて,本手法が顕著な性能向上を実現することが示された。
コードは \href{https://github.com/Feliciaxyao/NavMorph}{this https URL} で公開されている。
関連論文リスト
- A Navigation Framework Utilizing Vision-Language Models [0.0]
VLN(Vision-and-Language Navigation)は、AIを具現化した複雑な課題である。
CLIPやFlamingoのような大規模視覚言語モデル(LVLM)の最近の進歩は、マルチモーダル理解を大幅に改善した。
動作計画から視覚言語理解を分離するモジュラー・プラグ・アンド・プレイナビゲーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-11T20:51:58Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Environment-agnostic Multitask Learning for Natural Language Grounded
Navigation [88.69873520186017]
本稿では,視覚言語ナビゲーション(VLN)タスクと対話履歴からのナビゲーション(NDH)タスクをシームレスにトレーニングできるマルチタスクナビゲーションモデルを提案する。
実験により、環境に依存しないマルチタスク学習は、目に見える環境と目に見えない環境の間のパフォーマンスギャップを著しく減少させることが示された。
論文 参考訳(メタデータ) (2020-03-01T09:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。