Fugu-MT 論文翻訳(概要): AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

論文の概要: AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

arxiv url: http://arxiv.org/abs/2601.21602v2
Date: Tue, 03 Feb 2026 07:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.010432
Title: AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation
Title（参考訳）: AIR-VLA:空中マニピュレーションのためのビジョンランゲージ・アクション・システム
Authors: Jianli Sun, Bin Tian, Qiyao Zhang, Chengxiang Li, Zihan Song, Zhiyong Cui, Yisheng Lv, Yonglin Tian,
Abstract要約: VLA(Vision-Language-Action)モデルは、地上ベースのインボディードインテリジェンスにおいて顕著な成功を収めた。エアリアル・マニピュレーション・システム(AMS)への彼らの応用は、まだほとんど探索されていないフロンティアである。航空操作に適した最初のVLAベンチマークである textbfAIR-VLA を提案する。
参考スコア（独自算出の注目度）: 15.824903784302562
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Vision-Language-Action (VLA) models have achieved remarkable success in ground-based embodied intelligence, their application to Aerial Manipulation Systems (AMS) remains a largely unexplored frontier. The inherent characteristics of AMS, including floating-base dynamics, strong coupling between the UAV and the manipulator, and the multi-step, long-horizon nature of operational tasks, pose severe challenges to existing VLA paradigms designed for static or 2D mobile bases. To bridge this gap, we propose \textbf{AIR-VLA}, the first VLA benchmark specifically tailored for aerial manipulation. We construct a physics-based simulation environment and release a high-quality multimodal dataset comprising 3000 manually teleoperated demonstrations, covering base manipulation, object \& spatial understanding, semantic reasoning, and long-horizon planning. Leveraging this platform, we systematically evaluate mainstream VLA models and state-of-the-art VLM models. Our experiments not only validate the feasibility of transferring VLA paradigms to aerial systems but also, through multi-dimensional metrics tailored to aerial tasks, reveal the capabilities and boundaries of current models regarding UAV mobility, manipulator control, and high-level planning. \textbf{AIR-VLA} establishes a standardized testbed and data foundation for future research in general-purpose aerial robotics. The resource of AIR-VLA will be available at https://github.com/SpencerSon2001/AIR-VLA.
Abstract（参考訳）: Vision-Language-Action (VLA) モデルは地上でのインボディードインテリジェンスにおいて顕著な成功を収めてきたが、Aerial Manipulation Systems (AMS) への応用はいまだに未開発のフロンティアである。フローティングベースダイナミクス、UAVとマニピュレータの強い結合、運用タスクの多段階的、長期的特性など、AMSの本質的な特徴は、静的または2次元移動体ベース用に設計された既存のVLAパラダイムに深刻な課題をもたらす。このギャップを埋めるために,航空操作に適した最初のVLAベンチマークである「textbf{AIR-VLA}」を提案する。物理に基づくシミュレーション環境を構築し,3000個の手動遠隔操作による実演,ベース操作,対象と空間的理解,意味的推論,長期計画を含む高品質なマルチモーダルデータセットをリリースする。このプラットフォームを利用して、主流のVLAモデルと最先端のVLMモデルを体系的に評価する。我々の実験は、VLAパラダイムを航空システムに転送する可能性を検証するだけでなく、航空機の移動性、マニピュレータ制御、高レベル計画に関する現在のモデルの性能と限界を明らかにする。 \textbf{AIR-VLA}は、汎用航空ロボティクスにおける将来の研究のための標準化されたテストベッドとデータ基盤を確立する。 AIR-VLAのリソースはhttps://github.com/SpencerSon2001/AIR-VLAで入手できる。

関連論文リスト

HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。 HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文参考訳（メタデータ） (2025-12-05T13:21:05Z)
AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文参考訳（メタデータ） (2025-11-26T04:44:27Z)
Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation [38.19842131198389]
VLM(Vision-Language Models)はその強力な視覚認識と推論能力を活用し、無人航空機(UAV)のタスクに広く応用されている。しかし、UAVシナリオにおける既存のVLMの空間的知能能力は、まだほとんど解明されていない。本稿では,UAVナビゲーションにおけるVLMの空間的インテリジェンス能力を評価するためのベンチマークであるSpatialSky-Benchを紹介する。
論文参考訳（メタデータ） (2025-11-17T11:39:20Z)
DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。 NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文参考訳（メタデータ） (2025-10-14T17:59:47Z)
Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文参考訳（メタデータ） (2025-06-24T17:59:57Z)
Hierarchical and Collaborative LLM-Based Control for Multi-UAV Motion and Communication in Integrated Terrestrial and Non-Terrestrial Networks [21.350819743855382]
本研究は,複数のUAVの連立動作と通信制御を地球外ネットワークと非地球外ネットワークで行うことを目的としたものである。大規模言語モデル(LLM)に基づく新しい階層的協調手法を提案する。実験により,提案手法は, システム報酬の向上, 運用コストの低減, ベースライン手法と比較してUAV衝突率の大幅な低減を実現していることがわかった。
論文参考訳（メタデータ） (2025-06-06T20:59:52Z)
UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.07541452390107]
無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。 UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文参考訳（メタデータ） (2025-05-21T16:31:28Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文参考訳（メタデータ） (2024-10-09T17:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。