論文の概要: Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2602.05827v1
- Date: Thu, 05 Feb 2026 16:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.032306
- Title: Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
- Title(参考訳): Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
- Authors: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li,
- Abstract要約: Beyond-the-View Navigation(BVN)では、エージェントは密集したステップバイステップのガイダンスなしで、遠く、見えないターゲットを見つける必要がある。
既存の大規模言語モデル(LLM)ベースの手法は、短焦点監督に依存しているため、しばしば近視行動に悩まされる。
20秒の地平線にまたがるスパース未来によって導かれるサブ秒軌跡推論を実現するSparseVideoNavを提案する。
- 参考スコア(独自算出の注目度): 18.136190060725102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.
- Abstract(参考訳): なぜ視覚言語ナビゲーションが詳細で冗長な言語命令に結び付けられなければならないのか?
このような詳細は意思決定を容易にするが、現実世界でのナビゲーションの目的とは根本的に矛盾する。
理想的には、エージェントは単純でハイレベルな意図だけでガイドされた未知の環境をナビゲートする自律性を持つべきである。
BVN(Beyond-the-View Navigation)では、エージェントは密集したステップバイステップのガイダンスを使わずに、遠く、見えないターゲットを離れていなければならない。
既存の大規模言語モデル(LLM)に基づく手法は、厳密な指示に従わないが、短焦点監督に依存しているため、しばしば近視行動に悩まされる。
しかし、監督の地平線を単純に広げるだけで、LLMトレーニングは不安定になる。
本研究では,映像生成モデルが言語命令に適合する長軸監督の利点を生かし,BVNタスクに適した映像生成モデルを提案する。
この知見に基づいて,この分野にビデオ生成モデルを導入することを提案する。
しかし、数秒間にわたるビデオ生成の禁止的なレイテンシは、現実のデプロイメントを非現実的にします。
このギャップを埋めるために、20秒の地平線にまたがるスパース未来によって導かれるサブ秒の軌跡推論を実現するSparseVideoNavを提案する。
これにより、最適化されていないものに比べて27倍のスピードアップが得られる。
大規模な実世界のゼロショット実験により、SparseVideoNavはBVNタスクにおける最先端のLCMベースラインの成功率を2.5倍に達成し、夜間の挑戦シーンにおいてそのような能力の初めて実現したことを示す。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。