論文の概要: AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control
- arxiv url: http://arxiv.org/abs/2603.14363v1
- Date: Sun, 15 Mar 2026 13:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.77096
- Title: AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control
- Title(参考訳): AerialVLA:ミニマリスト・エンド・ツー・エンド制御によるUAVナビゲーションのための視覚言語対応モデル
- Authors: Peng Xu, Zhengnan Deng, Jiayan Deng, Zonghua Gu, Shaohua Wan,
- Abstract要約: 無人航空機(UAV)のための視覚言語ナビゲーション(VLN)は複雑な視覚的解釈と3D環境の連続的な制御を必要とする。
AerialVLAは、生の視覚観察とファジィ言語指示を直接連続的な物理制御信号にマッピングする、最小限のエンドツーエンドビジョン・ランゲージ・アクション・フレームワークである。
- 参考スコア(独自算出の注目度): 20.1849703990752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) for Unmanned Aerial Vehicles (UAVs) demands complex visual interpretation and continuous control in dynamic 3D environments. Existing hierarchical approaches rely on dense oracle guidance or auxiliary object detectors, creating semantic gaps and limiting genuine autonomy. We propose AerialVLA, a minimalist end-to-end Vision-Language-Action framework mapping raw visual observations and fuzzy linguistic instructions directly to continuous physical control signals. First, we introduce a streamlined dual-view perception strategy that reduces visual redundancy while preserving essential cues for forward navigation and precise grounding, which additionally facilitates future simulation-to-reality transfer. To reclaim genuine autonomy, we deploy a fuzzy directional prompting mechanism derived solely from onboard sensors, completely eliminating the dependency on dense oracle guidance. Ultimately, we formulate a unified control space that integrates continuous 3-Degree-of-Freedom (3-DoF) kinematic commands with an intrinsic landing signal, freeing the agent from external object detectors for precision landing. Extensive experiments on the TravelUAV benchmark demonstrate that AerialVLA achieves state-of-the-art performance in seen environments. Furthermore, it exhibits superior generalization in unseen scenarios by achieving nearly three times the success rate of leading baselines, validating that a minimalist, autonomy-centric paradigm captures more robust visual-motor representations than complex modular systems.
- Abstract(参考訳): 無人航空機(UAV)のための視覚言語ナビゲーション(VLN)は、ダイナミックな3D環境において複雑な視覚的解釈と連続的な制御を必要とする。
既存の階層的なアプローチは、密集したオラクルのガイダンスや補助的なオブジェクト検出器に依存し、意味的なギャップを作り、真の自律性を制限する。
AerialVLAは、生の視覚観察とファジィ言語指示を直接連続的な物理制御信号にマッピングする、最小限のエンドツーエンドビジョン・ランゲージ・アクション・フレームワークである。
まず、前方ナビゲーションと精密接地のための重要な手がかりを保ちながら、視覚的冗長性を低減し、将来的なシミュレーションから現実への移動を促進する2視点認識戦略を提案する。
真の自律性を取り戻すために、我々は、オンボードセンサーのみから派生したファジィ指向性促進機構を展開し、密集したオラクル誘導への依存を完全に排除した。
最終的には、連続3自由度3自由度(3-DoF)のキネマティックコマンドを固有の着地信号と統合する統一的な制御空間を定式化し、エージェントを精度の高い着陸のための外部物体検出器から解放する。
TravelUAVベンチマークの大規模な実験は、AerialVLAが見ている環境で最先端のパフォーマンスを達成することを実証している。
さらに、リードベースラインの成功率を3倍近く達成し、最小限の自律中心のパラダイムが複雑なモジュラーシステムよりも堅牢な視覚モダ表現を捉えていることを検証することで、目に見えないシナリオにおいて優れた一般化を示す。
関連論文リスト
- HiST-VLA: A Hierarchical Spatio-Temporal Vision-Language-Action Model for End-to-End Autonomous Driving [20.266736153749417]
Vision-Language-Action(VLA)モデルは、マルチモーダル理解を通じて自律運転に有望な機能を提供する。
安全クリティカルなシナリオにおけるそれらの利用は、数値推論、弱い3次元空間認識、文脈に対する高い感度を含む固有の制限によって制限されている。
信頼軌道生成用に設計された階層型時空間VLAモデルであるHiST-VLAを提案する。
論文 参考訳(メタデータ) (2026-02-11T07:08:33Z) - VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。
既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。
VLingNav(VLAモデル)を提案する。
論文 参考訳(メタデータ) (2026-01-13T15:43:43Z) - Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。
このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文 参考訳(メタデータ) (2025-12-09T14:25:24Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。