論文の概要: Towards Open Environments and Instructions: General Vision-Language Navigation via Fast-Slow Interactive Reasoning
- arxiv url: http://arxiv.org/abs/2601.09111v1
- Date: Wed, 14 Jan 2026 03:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.240927
- Title: Towards Open Environments and Instructions: General Vision-Language Navigation via Fast-Slow Interactive Reasoning
- Title(参考訳): オープン環境とインストラクション:高速対話型推論による汎用視覚言語ナビゲーション
- Authors: Yang Li, Aming Wu, Zihao Zhang, Yahong Han,
- Abstract要約: Vision-Language Navigationは、エージェントが言語命令に基づいてターゲット場所へナビゲートできるようにすることを目的としている。
最近の研究は、迅速で遅い認知システムによって、人間は安定したポリシーを生成できることを示している。
本稿では,動的対話型高速スロー推論フレームワークであるlow4fast-VLNを提案する。
- 参考スコア(独自算出の注目度): 58.25418970608328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation aims to enable agents to navigate to a target location based on language instructions. Traditional VLN often follows a close-set assumption, i.e., training and test data share the same style of the input images and instructions. However, the real world is open and filled with various unseen environments, posing enormous difficulties for close-set methods. To this end, we focus on the General Scene Adaptation (GSA-VLN) task, aiming to learn generalized navigation ability by introducing diverse environments and inconsistent intructions.Towards this task, when facing unseen environments and instructions, the challenge mainly lies in how to enable the agent to dynamically produce generalized strategies during the navigation process. Recent research indicates that by means of fast and slow cognition systems, human beings could generate stable policies, which strengthen their adaptation for open world. Inspired by this idea, we propose the slow4fast-VLN, establishing a dynamic interactive fast-slow reasoning framework. The fast-reasoning module, an end-to-end strategy network, outputs actions via real-time input. It accumulates execution records in a history repository to build memory. The slow-reasoning module analyze the memories generated by the fast-reasoning module. Through deep reflection, it extracts experiences that enhance the generalization ability of decision-making. These experiences are structurally stored and used to continuously optimize the fast-reasoning module. Unlike traditional methods that treat fast-slow reasoning as independent mechanisms, our framework enables fast-slow interaction. By leveraging the experiences from slow reasoning. This interaction allows the system to continuously adapt and efficiently execute navigation tasks when facing unseen scenarios.
- Abstract(参考訳): Vision-Language Navigationは、エージェントが言語命令に基づいてターゲット場所へナビゲートできるようにすることを目的としている。
従来のVLNは、しばしばクローズセットの仮定に従う。すなわち、トレーニングとテストデータは入力画像と命令の同じスタイルを共有する。
しかし、現実の世界はオープンであり、様々な目に見えない環境に満ちており、密集した手法には膨大な困難が伴う。
この目的のために、我々は、多様な環境や不整合な導入によって一般化されたナビゲーション能力を学ぶことを目的とした、一般的なシーン適応(GSA-VLN)タスクに焦点を当て、これまで、目に見えない環境や指示に直面する場合、主に、ナビゲーションプロセス中にエージェントが動的に一般化された戦略を作成できるようにすることが課題である。
近年の研究では、迅速で遅い認知システムによって、人間は安定した政策を生み出し、オープンワールドへの適応を強化することが示されている。
このアイデアにインスパイアされた我々は、動的インタラクティブな高速スロー推論フレームワークである slow4fast-VLN を提案する。
エンドツーエンド戦略ネットワークである高速推論モジュールは、リアルタイム入力を介してアクションを出力する。
メモリを構築するために履歴リポジトリに実行レコードを蓄積する。
slow-reasoningモジュールは、fast-reasoningモジュールによって生成されたメモリを分析する。
深い反射を通して、意思決定の一般化能力を高める経験を抽出する。
これらのエクスペリエンスは構造的に格納され、高速推論モジュールを継続的に最適化するために使用されます。
高速スロー推論を独立したメカニズムとして扱う従来の手法とは異なり、我々のフレームワークは高速スローインタラクションを可能にする。
ゆっくりとした推論から経験を活用すること。
この相互作用により、システムは目に見えないシナリオに直面しているときに、継続的に適応し、効率的にナビゲーションタスクを実行することができる。
関連論文リスト
- VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [43.5771856761934]
VLN(Vision-and-Language Navigation)は、自然言語命令を解釈し、複雑な3D環境をナビゲートするエージェントにとって大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:50:30Z) - NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments [67.18144414660681]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、自然言語命令によって誘導される複雑な環境において、エージェントがシーケンシャルなナビゲーションアクションを実行する必要がある。
人間の認知にインスパイアされたNavMorphは、VLN-CEタスクにおける環境理解と意思決定を強化する自己進化型世界モデルフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T02:20:00Z) - Efficient and Generalizable Environmental Understanding for Visual Navigation [14.10058573339022]
ビジュアルナビゲーションは、エージェントが与えられた目的に向かって複雑な環境をナビゲートできるようにする、Embodied AIの中核的なタスクである。
エージェントの環境理解能力を高めるために因果理解モジュールを組み込んだ因果認識ナビゲーション(CAN)を提案する。
論文 参考訳(メタデータ) (2025-06-18T11:47:02Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。
本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文 参考訳(メタデータ) (2024-12-07T06:12:53Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。