論文の概要: VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments
- arxiv url: http://arxiv.org/abs/2512.15258v1
- Date: Wed, 17 Dec 2025 10:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.928754
- Title: VLA-AN: An Efficient and Onboard Vision-Language-Action Framework for Aerial Navigation in Complex Environments
- Title(参考訳): VLA-AN - 複雑な環境下での航空航法のための高能率かつオンボード型視覚ランゲージ・アクション・フレームワーク
- Authors: Yuze Wu, Mo Zhu, Xingxing Li, Yuheng Du, Yuxin Fan, Wenjun Li, Xin Zhou, Fei Gao,
- Abstract要約: VLA-ANは、複雑な環境での自律ドローンナビゲーションに特化したフレームワークである。
既存の大型航法モデルの4つの大きな制限に対処する。
シングルタスクの成功率は98.1%に達する。
- 参考スコア(独自算出の注目度): 12.848490456918588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes VLA-AN, an efficient and onboard Vision-Language-Action (VLA) framework dedicated to autonomous drone navigation in complex environments. VLA-AN addresses four major limitations of existing large aerial navigation models: the data domain gap, insufficient temporal navigation with reasoning, safety issues with generative action policies, and onboard deployment constraints. First, we construct a high-fidelity dataset utilizing 3D Gaussian Splatting (3D-GS) to effectively bridge the domain gap. Second, we introduce a progressive three-stage training framework that sequentially reinforces scene comprehension, core flight skills, and complex navigation capabilities. Third, we design a lightweight, real-time action module coupled with geometric safety correction. This module ensures fast, collision-free, and stable command generation, mitigating the safety risks inherent in stochastic generative policies. Finally, through deep optimization of the onboard deployment pipeline, VLA-AN achieves a robust real-time 8.3x improvement in inference throughput on resource-constrained UAVs. Extensive experiments demonstrate that VLA-AN significantly improves spatial grounding, scene reasoning, and long-horizon navigation, achieving a maximum single-task success rate of 98.1%, and providing an efficient, practical solution for realizing full-chain closed-loop autonomy in lightweight aerial robots.
- Abstract(参考訳): 本稿では、複雑な環境下での自律型ドローンナビゲーションに特化した、効率的でオンボードなVLA(Vision-Language-Action)フレームワークであるVLA-ANを提案する。
VLA-ANは、データドメインギャップ、推論による時間的ナビゲーションの不十分、生成的アクションポリシーによる安全性の問題、オンボードデプロイメント制約という、既存の大規模航法モデルの4つの大きな制限に対処する。
まず,3次元ガウス格子(3D-GS)を用いた高忠実度データセットを構築し,領域ギャップを効果的に橋渡しする。
第2に、シーン理解、コアフライトスキル、複雑なナビゲーション能力を逐次強化するプログレッシブ3段階トレーニングフレームワークを導入する。
第3に、幾何学的安全性補正と組み合わせた軽量リアルタイム動作モジュールを設計する。
このモジュールは、確率的生成ポリシーに固有の安全性リスクを軽減し、高速で、衝突のない、安定したコマンド生成を保証する。
最後に、オンボードデプロイメントパイプラインの深い最適化により、VLA-ANは、リソース制約されたUAV上での推論スループットの堅牢なリアルタイム8.3倍の改善を実現している。
大規模な実験により、VLA-ANは空間接地、シーン推論、ロングホライゾンナビゲーションを著しく改善し、最大98.1%の単一タスク成功率を実現し、軽量ロボットの完全鎖閉ループ自律性を実現するための効率的で実用的なソリューションを提供する。
関連論文リスト
- Trajectory Design for UAV-Based Low-Altitude Wireless Networks in Unknown Environments: A Digital Twin-Assisted TD3 Approach [62.11847362756054]
低高度無線ネットワーク(LAWN)のキーイネーブラーとして無人航空機(UAV)が登場している
我々は、デジタルツイン(DT)支援トレーニングおよびデプロイメントフレームワークを提案する。
このフレームワークでは、UAVは統合されたセンシングと通信信号を送信し、地上ユーザーに通信サービスを提供し、同時にDTサーバにアップロードされたエコーを収集して、仮想環境(VE)を段階的に構築する。
これらのVEはモデルトレーニングを加速し、展開中のリアルタイムUAVセンシングデータを継続的に更新し、意思決定をサポートし、飛行安全性を向上する。
論文 参考訳(メタデータ) (2025-10-28T10:05:53Z) - DAgger Diffusion Navigation: DAgger Boosted Diffusion Policy for Vision-Language Navigation [73.80968452950854]
Vision-Language Navigation in Continuous Environments (VLN-CE) は、エージェントが自由形式の3D空間を通して自然言語の指示に従う必要がある。
既存のVLN-CEアプローチは通常、2段階のウェイポイント計画フレームワークを使用する。
本稿では,エンドツーエンド最適化VLN-CEポリシとしてDAgger Diffusion Navigation (DifNav)を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:51:43Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - Task Assignment and Exploration Optimization for Low Altitude UAV Rescue via Generative AI Enhanced Multi-agent Reinforcement Learning [44.02103029265148]
本稿では,UAV,GER,飛行船の連携フレームワークを提案する。
このフレームワークは、UAV-to-GER(U2G)とUAV-to-Airship(U2A)のリンクを通じてリソースプーリングを可能にし、オフロードされたタスクのコンピューティングサービスを提供する。
論文 参考訳(メタデータ) (2025-04-18T08:44:06Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation [9.25068777307471]
本稿では,乱雑な環境下でのアジャイルドローン飛行のための学習型ビジュアルプランナを紹介する。
提案したプランナーは、ミリ秒で衝突のないウェイポイントを生成し、ドローンは、異なる知覚、マッピング、計画モジュールを構築することなく、複雑な環境でアジャイルな操作を実行できる。
論文 参考訳(メタデータ) (2025-02-04T06:42:08Z) - Monocular Obstacle Avoidance Based on Inverse PPO for Fixed-wing UAVs [29.207513994002202]
固定翼無人航空機(英語: Fixed-wing Unmanned Aerial Vehicles、UAV)は、低高度経済(LAE)と都市空運(UAM)のための最も一般的なプラットフォームの一つである。
従来の地図や高度なセンサーに依存する古典的な障害物回避システムは、未知の低高度環境や小型UAVプラットフォームにおいて制限に直面している。
本稿では,DRLに基づくUAV衝突回避システムを提案する。
論文 参考訳(メタデータ) (2024-11-27T03:03:37Z) - Navigation in a simplified Urban Flow through Deep Reinforcement Learning [0.9217021281095907]
都市環境における無人航空機(UAV)は、環境への影響を最小限に抑える戦略を必要とする。
我々の目標は、都市環境下での無人航法を可能にするDRLアルゴリズムを開発することである。
論文 参考訳(メタデータ) (2024-09-26T15:05:15Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。