論文の概要: ImagineUAV: Aerial Vision-Language Navigation via World-Action Modeling and Kinodynamic Planning
- arxiv url: http://arxiv.org/abs/2606.01205v1
- Date: Sun, 31 May 2026 12:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.379981
- Title: ImagineUAV: Aerial Vision-Language Navigation via World-Action Modeling and Kinodynamic Planning
- Title(参考訳): imagineUAV: World-Action ModelingとKineodynamic Planningによる空中視線ナビゲーション
- Authors: Xuchen Liu, Jiawei Huang, Shihao Xia, Bingxi Liu, Jinqiang Cui, Jiankun Yang,
- Abstract要約: 無人機のための視覚言語ナビゲーション(VLN)は、部分観測性の下で自由形式の指示を6-DoF飛行に接地することを要求する。
ケースド・ワールド・アクション・モデリングを利用した想像力駆動型フレームワークであるImagineUAVを提案する。
想像上のUAVは、VLNとVLAのベースラインをベンチマークや現実世界の飛行で上回っている。
- 参考スコア(独自算出の注目度): 8.298446181889675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation (VLN) for UAVs demands grounding free-form instructions into 6-DoF flight under partial observability. While Vision-Language-Action (VLA) models excel at semantic reasoning, they suffer from brittleness due to geometric inconsistency and dynamics mismatch. To address this, we propose ImagineUAV, an imagination-driven framework leveraging cascaded world-action modeling. Instead of direct regression, ImagineUAV employs a latent video diffusion model to generate instruction-conditioned future observations, explicitly imagining environmental evolution, from which 6-DoF motions are inferred via an action extractor. A kinodynamic planner then refines these estimates into collision-free trajectories. Additionally, a step-distilled inference pipeline ensures real-time execution. With only 1.3B parameters, ImagineUAV outperforms prior VLN and VLA baselines on benchmarks and real-world flights, validating the practicality of imagination-driven aerial navigation.
- Abstract(参考訳): 無人機のための視覚言語ナビゲーション(VLN)は、部分観測性の下で自由形式の命令を6-DoF飛行に接地することを要求する。
Vision-Language-Action (VLA) モデルは意味論的推論において優れているが、幾何学的不整合と動的ミスマッチによる脆さに悩まされている。
これを解決するために,ケースド・ワールド・アクション・モデリングを利用した想像力駆動型フレームワークであるImagineUAVを提案する。
直接回帰の代わりに、ImagineUAVは遅延ビデオ拡散モデルを用いて、指示条件付き将来の観測結果を生成する。
キノダイナミックプランナーは、これらの推定値を無衝突軌道に洗練する。
さらに、ステップ蒸留された推論パイプラインにより、リアルタイム実行が保証される。
パラメータは1.3Bに過ぎず、ImagineUAVはVLNとVLAのベースラインをベンチマークや現実飛行で上回り、想像力駆動の空中ナビゲーションの実用性を検証する。
関連論文リスト
- FlyMirage: A Fully Automated Generation Pipeline for Diverse and Scalable UAV Flight Data via Generative World Model [13.125579202955384]
FlyMirageは、高度にスケーラブルで完全に自動化されたVLN用のデータ生成パイプラインである。
我々は、動的に実現可能な飛行軌跡を持つ大規模で多種多様で光現実的な航空VLNデータセットを生成する。
論文 参考訳(メタデータ) (2026-05-19T09:41:04Z) - WorldVLN: Autoregressive World Action Model for Aerial Vision-Language Navigation [31.224842983083803]
航空VLNのための世界初の自己回帰的世界行動モデルであるWorldVLNを提案する。
WorldVLNは、短水平世界状態遷移を予測するために、遅延自己回帰ビデオバックボーンを適用する。
WorldVLNは、既存のVision-Language-Actionベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-15T13:55:39Z) - MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - MotionScape: A Large-Scale Real-World Highly Dynamic UAV Video Dataset for World Models [6.680381992984212]
我々は,世界モデリングのための高ダイナミックな動きを持つ大規模実世界のUAVviewビデオデータセットであるMotionScapeを紹介する。
MotionScapeには4K UAVビュービデオが30時間以上含まれており、合計4.5Mのフレームがある。
このデータセットはセマンティックで幾何学的に整合したトレーニングサンプルを備えており、様々な現実世界のUAVビデオが正確な6-DoFカメラ軌道ときめ細かい自然言語記述と密結合されている。
論文 参考訳(メタデータ) (2026-04-09T08:59:40Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space [48.19308247102762]
本稿では,過去のフレームや行動に照らされた将来の視覚的観察を予測する航空ナビゲーションワールドモデルANWMを提案する。
ANWMは4-DoF UAV軌道で訓練され、物理学にインスパイアされたモジュールであるFuture Frame Projectionを導入した。
実験により、ANWMは長距離視覚予測において既存の世界を著しく上回り、大規模環境でのUAV航法成功率を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-26T06:22:39Z) - VISTAv2: World Imagination for Indoor Vision-and-Language Navigation [15.33980337718478]
VLN(Vision-and-Language Navigation)は、エージェントが現実世界の空間で行動している間に言語命令に従う必要がある。
以前のイメージイマジネーションに基づくVLNの研究は、離散パノラマの利点を示しているが、オンラインの行動条件予測に欠けている。
VISTAv2は、過去の観測に照らされた自我中心の将来の展望をロールアウトする生成的世界モデルである。
論文 参考訳(メタデータ) (2025-11-14T10:20:22Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。