論文の概要: MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?
- arxiv url: http://arxiv.org/abs/2512.23219v1
- Date: Mon, 29 Dec 2025 05:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.414686
- Title: MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?
- Title(参考訳): MM-UAVBench: マルチモーダルな大規模言語モデルは、低高度UAVシナリオにおいて、どの程度よく見、考え、計画されているか?
- Authors: Shiqi Dai, Zizhi Ma, Zhicong Luo, Xuesong Yang, Yibin Huang, Wanyue Zhang, Chi Chen, Zonghao Guo, Wang Xu, Yufei Sun, Maosong Sun,
- Abstract要約: MM-UAVBenchは、3つの中核機能次元(知覚、認知、低高度UAVシナリオ)にわたるMLLMを体系的に評価する総合的なベンチマークである。
MM-UAVBenchは19のサブタスクと5.7K以上の注釈付き質問で構成され、いずれも公開データセットから収集された実際のUAVデータに由来する。
我々の実験によると、現在のモデルは、低高度シナリオの複雑な視覚的および認知的要求に適応するのに苦労している。
- 参考スコア(独自算出の注目度): 35.75859316774549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have exhibited remarkable general intelligence across diverse domains, their potential in low-altitude applications dominated by Unmanned Aerial Vehicles (UAVs) remains largely underexplored. Existing MLLM benchmarks rarely cover the unique challenges of low-altitude scenarios, while UAV-related evaluations mainly focus on specific tasks such as localization or navigation, without a unified evaluation of MLLMs'general intelligence. To bridge this gap, we present MM-UAVBench, a comprehensive benchmark that systematically evaluates MLLMs across three core capability dimensions-perception, cognition, and planning-in low-altitude UAV scenarios. MM-UAVBench comprises 19 sub-tasks with over 5.7K manually annotated questions, all derived from real-world UAV data collected from public datasets. Extensive experiments on 16 open-source and proprietary MLLMs reveal that current models struggle to adapt to the complex visual and cognitive demands of low-altitude scenarios. Our analyses further uncover critical bottlenecks such as spatial bias and multi-view understanding that hinder the effective deployment of MLLMs in UAV scenarios. We hope MM-UAVBench will foster future research on robust and reliable MLLMs for real-world UAV intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な領域にまたがる顕著な汎用性を示してきたが、無人航空機(UAV)が支配する低高度用途におけるその潜在能力は、いまだに未熟である。
既存のMLLMベンチマークは低高度シナリオの固有の課題をほとんどカバーしていないが、UAV関連の評価は主にローカライゼーションやナビゲーションのような特定のタスクに焦点を当てており、MLLMの総合的なインテリジェンスを統一的に評価していない。
このギャップを埋めるため、MM-UAVBenchは、3つの中核機能次元(知覚、認識、低高度UAVシナリオ)にわたるMLLMを体系的に評価する総合的なベンチマークである。
MM-UAVBenchは19のサブタスクと5.7K以上の注釈付き質問で構成され、いずれも公開データセットから収集された実際のUAVデータに由来する。
16のオープンソースおよびプロプライエタリなMLLMに関する大規模な実験によると、現在のモデルは、低高度シナリオの複雑な視覚的および認知的要求に適応するのに苦労している。
本稿では,UAVシナリオにおけるMLLMの効果的な展開を妨げる,空間バイアスや多視点理解などの重要なボトルネックを明らかにする。
MM-UAVBenchは、現実のUAVインテリジェンスのための堅牢で信頼性の高いMLLMの研究を促進することを願っている。
関連論文リスト
- Is your VLM Sky-Ready? A Comprehensive Spatial Intelligence Benchmark for UAV Navigation [38.19842131198389]
VLM(Vision-Language Models)はその強力な視覚認識と推論能力を活用し、無人航空機(UAV)のタスクに広く応用されている。
しかし、UAVシナリオにおける既存のVLMの空間的知能能力は、まだほとんど解明されていない。
本稿では,UAVナビゲーションにおけるVLMの空間的インテリジェンス能力を評価するためのベンチマークであるSpatialSky-Benchを紹介する。
論文 参考訳(メタデータ) (2025-11-17T11:39:20Z) - MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility [33.73170899086857]
無人航空機(UAV)に代表される低高度機動性は、様々な領域に変革をもたらす。
本稿では,大規模言語モデル(LLM)とUAVの統合について検討する。
UAVとLLMが収束する主要なタスクとアプリケーションシナリオを分類し分析する。
論文 参考訳(メタデータ) (2025-01-04T17:32:12Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。