論文の概要: WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2605.15964v1
- Date: Fri, 15 May 2026 13:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.333679
- Title: WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation
- Title(参考訳): WorldVLN:Aerial Vision-Language Navigationのための自己回帰的世界行動モデル
- Authors: Baining Zhao, Jiacheng Xu, Weicheng Feng, Xin Zhang, Zhaolu Wang, Haoyang Wang, Shilong Ji, Ziyou Wang, Jianjie Fang, Zhiheng Zheng, Weichen Zhang, Yu Shang, Wei Wu, Chen Gao, Xinlei Chen, Yong Li,
- Abstract要約: 航空VLNのための世界初の自己回帰的世界行動モデルであるWorldVLNを提案する。
WorldVLNは、短水平世界状態遷移を予測するために、遅延自己回帰ビデオバックボーンを適用する。
WorldVLNは、既存のVision-Language-Actionベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 31.224842983083803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aerial vision-language navigation (VLN) requires agents to follow natural-language instructions through closed-loop perception and action in 3D environments. We argue that aerial VLN can be formulated as a prediction-driven world-action problem: the agent should anticipate latent world evolution and act according to the predicted consequences. To this end, we propose WorldVLN, the first autoregressive world action model for aerial VLN. Unlike full-sequence video-generation world models that generate an entire visual clip, WorldVLN adapts a latent autoregressive video backbone to predict short-horizon world-state transitions and directly decodes them into executable waypoint actions. After each action segment is executed, newly received observations are encoded back into the autoregressive context, enabling closed-loop world-action prediction. We further introduce a two-stage training framework that first grounds the video prior in instruction-conditioned navigation dynamics and then develops Action-aware GRPO, the first reinforcement learning method tailored to autoregressive WAMs, to optimize waypoint decisions through their downstream rollout consequences. On public outdoor and indoor benchmarks, WorldVLN consistently outperforms existing Vision-Language-Action baselines with 12\%+ success-rate gains and larger advantages on challenging cases. It further transfers zero-shot to real drone deployment, suggesting that the proposed WorldVLN offers a promising route for spatial action tasks. Demos and code are available at https://embodiedcity.github.io/WorldVLN/.
- Abstract(参考訳): 航空視覚言語ナビゲーション(VLN)では、エージェントはクローズドループの知覚と3D環境におけるアクションを通じて自然言語の指示に従う必要がある。
我々は,航空VLNは予測駆動型世界行動問題として定式化できると主張している。
そこで本研究では,航空VLNのための世界初の自己回帰的世界行動モデルであるWorldVLNを提案する。
ビジュアルクリップ全体を生成するフルシーケンスビデオ生成ワールドモデルとは異なり、WorldVLNは、短水平世界状態遷移を予測するために遅延自己回帰ビデオバックボーンを適用し、それらを実行可能なウェイポイントアクションに直接デコードする。
各アクションセグメントが実行されると、新たに受信した観測結果を自己回帰コンテキストに符号化し、クローズドループのワールドアクション予測を可能にする。
さらに,2段階のトレーニングフレームワークを導入し,命令条件付きナビゲーションダイナミックスに先立って映像を基盤として,自動回帰型WAMに適した最初の強化学習手法であるAction-Aware GRPOを開発し,下流でのロールアウト結果による経路決定を最適化する。
公開の屋外と屋内のベンチマークでは、WorldVLNは既存のVision-Language-Actionベースラインを12.5%以上の成功率で上回り、挑戦的なケースでは大きな優位性を持つ。
さらに、ゼロショットを実際のドローン配備に転送し、提案されているWorldVLNが空間行動タスクに有望なルートを提供することを示唆している。
デモとコードはhttps://embodiedcity.github.io/WorldVLN/で公開されている。
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - LMGenDrive: Bridging Multimodal Understanding and Generative World Modeling for End-to-End Driving [60.31765454895336]
本稿では、マルチモーダル理解と生成世界モデルを組み合わせた、エンドツーエンドのクローズドループ駆動のための最初のフレームワークLMGenDriveを紹介する。
本稿では,視覚前訓練から多段階長距離運転に至るまでの3段階訓練戦略を提案し,安定性と性能の向上を図る。
論文 参考訳(メタデータ) (2026-04-09T19:13:14Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。