論文の概要: Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2602.05827v1
- Date: Thu, 05 Feb 2026 16:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.032306
- Title: Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
- Title(参考訳): Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
- Authors: Hai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li,
- Abstract要約: Beyond-the-View Navigation(BVN)では、エージェントは密集したステップバイステップのガイダンスなしで、遠く、見えないターゲットを見つける必要がある。
既存の大規模言語モデル(LLM)ベースの手法は、短焦点監督に依存しているため、しばしば近視行動に悩まされる。
20秒の地平線にまたがるスパース未来によって導かれるサブ秒軌跡推論を実現するSparseVideoNavを提案する。
- 参考スコア(独自算出の注目度): 18.136190060725102
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Why must vision-language navigation be bound to detailed and verbose language instructions? While such details ease decision-making, they fundamentally contradict the goal for navigation in the real-world. Ideally, agents should possess the autonomy to navigate in unknown environments guided solely by simple and high-level intents. Realizing this ambition introduces a formidable challenge: Beyond-the-View Navigation (BVN), where agents must locate distant, unseen targets without dense and step-by-step guidance. Existing large language model (LLM)-based methods, though adept at following dense instructions, often suffer from short-sighted behaviors due to their reliance on short-horimzon supervision. Simply extending the supervision horizon, however, destabilizes LLM training. In this work, we identify that video generation models inherently benefit from long-horizon supervision to align with language instructions, rendering them uniquely suitable for BVN tasks. Capitalizing on this insight, we propose introducing the video generation model into this field for the first time. Yet, the prohibitive latency for generating videos spanning tens of seconds makes real-world deployment impractical. To bridge this gap, we propose SparseVideoNav, achieving sub-second trajectory inference guided by a generated sparse future spanning a 20-second horizon. This yields a remarkable 27x speed-up compared to the unoptimized counterpart. Extensive real-world zero-shot experiments demonstrate that SparseVideoNav achieves 2.5x the success rate of state-of-the-art LLM baselines on BVN tasks and marks the first realization of such capability in challenging night scenes.
- Abstract(参考訳): なぜ視覚言語ナビゲーションが詳細で冗長な言語命令に結び付けられなければならないのか?
このような詳細は意思決定を容易にするが、現実世界でのナビゲーションの目的とは根本的に矛盾する。
理想的には、エージェントは単純でハイレベルな意図だけでガイドされた未知の環境をナビゲートする自律性を持つべきである。
BVN(Beyond-the-View Navigation)では、エージェントは密集したステップバイステップのガイダンスを使わずに、遠く、見えないターゲットを離れていなければならない。
既存の大規模言語モデル(LLM)に基づく手法は、厳密な指示に従わないが、短焦点監督に依存しているため、しばしば近視行動に悩まされる。
しかし、監督の地平線を単純に広げるだけで、LLMトレーニングは不安定になる。
本研究では,映像生成モデルが言語命令に適合する長軸監督の利点を生かし,BVNタスクに適した映像生成モデルを提案する。
この知見に基づいて,この分野にビデオ生成モデルを導入することを提案する。
しかし、数秒間にわたるビデオ生成の禁止的なレイテンシは、現実のデプロイメントを非現実的にします。
このギャップを埋めるために、20秒の地平線にまたがるスパース未来によって導かれるサブ秒の軌跡推論を実現するSparseVideoNavを提案する。
これにより、最適化されていないものに比べて27倍のスピードアップが得られる。
大規模な実世界のゼロショット実験により、SparseVideoNavはBVNタスクにおける最先端のLCMベースラインの成功率を2.5倍に達成し、夜間の挑戦シーンにおいてそのような能力の初めて実現したことを示す。
関連論文リスト
- CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces [2.2406151150434894]
VLN(Vision-and-Language Navigation)は、自律型ロボットが自然言語の指示に従うことで、未知の環境をナビゲートすることを可能にする。
現行のVLNシステムはナビゲーション用に特別に設計され最適化されたモデルに依存しており、市販のLVLMの可能性を未調査のまま残している。
本稿では,市販のLVLMがVLNタスクを効果的にサポートできるのか,低レベルおよびパノラマ動作パラダイムの両方をサポートすることができるのかを検討する。
論文 参考訳(メタデータ) (2025-08-04T21:45:21Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。