論文の概要: WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation
- arxiv url: http://arxiv.org/abs/2606.06147v1
- Date: Thu, 04 Jun 2026 13:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.813775
- Title: WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation
- Title(参考訳): WorldFly:UAVナビゲーションのための世界モデルに基づくビジョンランゲージ・アクションモデル
- Authors: Shengtao Zheng, Kai Li, Weichen Zhang, Yu Meng, Chen Gao, Xinlei Chen, Yong Li, Xiao-Ping Zhang,
- Abstract要約: 将来の状態を「想像」する能力は、そのような部分的な可観測性の下での堅牢な意思決定に不可欠である、と我々は主張する。
We propose WorldFly, a novel world-model-based VLA framework that using a dual-branch linked flow matching mechanism to jointly generate future video predictions and navigation action。
- 参考スコア(独自算出の注目度): 42.8714305455232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Vision-Language-Action (VLA) models have shown promise in UAV navigation. However, existing approaches typically rely on historical observations to directly predict actions, often struggling in dense urban environments where severe occlusions and sharp turns result in drastic viewpoint transitions. We argue that the ability to "imagine" future states -- inherent in World Models -- is critical for robust decision-making under such partial observability. To address this, we construct a challenging Urban Canyon Traversal Benchmark, specifically designed to evaluate spatial understanding in scenarios characterized by severe occlusions and drastic viewpoint transitions. To this end, we propose WorldFly, a novel world-model-based VLA framework that employs a dual-branch coupled flow matching mechanism to jointly generate future video predictions and navigation actions, thereby explicitly guiding the agent's policy via spatial imagination. Extensive evaluations on our benchmark demonstrate that WorldFly outperforms other baselines, particularly in unseen environments, validating the effectiveness of integrating world models into embodied aerial agents.
- Abstract(参考訳): VLA(End-to-end Vision-Language-Action)モデルでは、UAVナビゲーションが約束されている。
しかし、既存のアプローチは通常、行動を直接予測するために歴史的な観察に依存しており、しばしば激しい閉塞と鋭い曲がり角が劇的な視点遷移をもたらす密集した都市環境で苦戦している。
我々は、世界モデルに固有の未来の状態を「想像する」能力は、そのような部分的な可観測性の下での堅牢な意思決定に不可欠であると主張している。
そこで本稿では,都市キャニオントラバースベンチマーク(Urban Canyon Traversal Benchmark)を構築する。
この目的のために,両ブランチ結合型フローマッチング機構を用いて将来の映像予測とナビゲーション動作を共同で生成し,空間的想像力を通じてエージェントのポリシーを明示的に導く,新しいワールドモデルベースのVLAフレームワークであるWorldFlyを提案する。
我々のベンチマークによる大規模な評価は、WorldFlyが他のベースライン、特に見えない環境でより優れており、世界モデルとエンボディされた航空エージェントの統合の有効性が検証されていることを示している。
関連論文リスト
- World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems [32.4918638412746]
VLA(Vision-Language-Action)モデルは、知覚と言語を作用させるエンボディエージェントを構築するための有望なパラダイムとして登場した。
本稿では,VLAシステムにおける暗黙的な計画を可能にする統合フレームワークであるWorld-Value-Action(WAV)モデルを紹介する。
論文 参考訳(メタデータ) (2026-04-16T07:46:05Z) - Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:42Z) - AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。
AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。
本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文 参考訳(メタデータ) (2025-12-25T15:31:24Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。