論文の概要: VISTAv2: World Imagination for Indoor Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2512.00041v1
- Date: Fri, 14 Nov 2025 10:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.401004
- Title: VISTAv2: World Imagination for Indoor Vision-and-Language Navigation
- Title(参考訳): VISTAv2: Imagination for Indoor Vision-and-Language Navigation
- Authors: Yanjia Huang, Xianshun Jiang, Xiangbo Gao, Mingyang Wu, Zhengzhong Tu,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが現実世界の空間で行動している間に言語命令に従う必要がある。
以前のイメージイマジネーションに基づくVLNの研究は、離散パノラマの利点を示しているが、オンラインの行動条件予測に欠けている。
VISTAv2は、過去の観測に照らされた自我中心の将来の展望をロールアウトする生成的世界モデルである。
- 参考スコア(独自算出の注目度): 15.33980337718478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to follow language instructions while acting in continuous real-world spaces. Prior image imagination based VLN work shows benefits for discrete panoramas but lacks online, action-conditioned predictions and does not produce explicit planning values; moreover, many methods replace the planner with long-horizon objectives that are brittle and slow. To bridge this gap, we propose VISTAv2, a generative world model that rolls out egocentric future views conditioned on past observations, candidate action sequences, and instructions, and projects them into an online value map for planning. Unlike prior approaches, VISTAv2 does not replace the planner. The online value map is fused at score level with the base objective, providing reachability and risk-aware guidance. Concretely, we employ an action-aware Conditional Diffusion Transformer video predictor to synthesize short-horizon futures, align them with the natural language instruction via a vision-language scorer, and fuse multiple rollouts in a differentiable imagination-to-value head to output an imagined egocentric value map. For efficiency, rollouts occur in VAE latent space with a distilled sampler and sparse decoding, enabling inference on a single consumer GPU. Evaluated on MP3D and RoboTHOR, VISTAv2 improves over strong baselines, and ablations show that action-conditioned imagination, instruction-guided value fusion, and the online value-map planner are all critical, suggesting that VISTAv2 offers a practical and interpretable route to robust VLN.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが連続した現実世界空間で動作している間に言語命令に従う必要がある。
以前のイメージイマジネーションに基づくVLNの研究は、離散パノラマの利点を示しているが、オンラインの行動条件付き予測が欠如しており、明確な計画値が得られていない。
このギャップを埋めるために、過去の観測、候補アクションシーケンス、指示に基づくエゴセントリックな未来ビューをロールアウトする生成的世界モデルVISTAv2を提案し、それらを計画のためのオンラインバリューマップに投影する。
以前のアプローチとは異なり、VISTAv2はプランナーを置き換えない。
オンライン価値マップはスコアレベルで基本目標と融合し、到達可能性とリスク対応のガイダンスを提供する。
具体的には、行動認識型条件付き拡散変換器ビデオ予測器を用いて、短期水平未来を合成し、視覚言語スコアラーを介して自然言語命令と整列し、複数のロールアウトを微分可能な想像値-値のヘッドに融合して、想像上のエゴセントリックな値マップを出力する。
効率性のために、VAEラテント空間で蒸留されたサンプリング器とスパースデコーディングによってロールアウトが発生し、単一のコンシューマGPUで推論が可能である。
MP3DとRobothorで評価すると、VISTAv2は強力なベースラインよりも改善され、Ablationsはアクション条件付きイマジネーション、命令誘導値融合、オンラインバリューマッププランナーがすべて重要であり、VISTAv2は堅牢なVLNへの実践的で解釈可能なルートを提供することを示唆している。
関連論文リスト
- Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles [34.698147360764104]
ThinkDeeperは、決定を下す前に将来の空間状態を説明するフレームワークである。
Talk2Carのリーダーボードで1位にランクインし、DrivePilot、MoCAD、RefCOCO/+/gベンチマークで最先端のベースラインを上回っている。
さらに、ADにおけるマルチソースVGデータセットであるDrivePilotを紹介し、Retrieval-Augmented Generation (RAG)とChain-of-Thoughtパイプラインによって生成されるセマンティックアノテーションを特徴とする。
論文 参考訳(メタデータ) (2025-12-03T05:14:16Z) - DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation [17.00613677919529]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、言語指導を現実世界の知覚と制御に結びつけている。
本稿では,(1)知覚コストの低減に向け,EgoView Correctorが視点を整合させ,自我中心の知覚を安定させる,(2)目標予測が指示セマンティクスとの整合性を高めるためのグローバルな軌道計画が好まれる,(3)予測と長期計画が可能となる,Imagination Predictorを提案する,という3つの側面について述べる。
論文 参考訳(メタデータ) (2025-09-14T09:54:20Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。