論文の概要: UAVBench and UAVIT-1M: Benchmarking and Enhancing MLLMs for Low-Altitude UAV Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2603.14336v1
- Date: Sun, 15 Mar 2026 12:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.756018
- Title: UAVBench and UAVIT-1M: Benchmarking and Enhancing MLLMs for Low-Altitude UAV Vision-Language Understanding
- Title(参考訳): UAVBenchとUAVIT-1M:低高度UAVビジョンランゲージ理解のためのMLLMのベンチマークと強化
- Authors: Yang Zhan, Yuan Yuan,
- Abstract要約: UAVBenchとUAVIT-1Mは低高度視覚言語タスクにおけるMLLMの能力の評価と改善を目的としている。
UAVBenchは、43の試験ユニットと、画像レベルと領域レベルの10タスクにわたる966kの高品質なデータサンプルで構成されている。
UAVIT-1Mは、約124万の多様な命令で構成され、789万のマルチシーン画像と、11の異なるタスクを持つ約2,000種類の空間解像度をカバーしている。
- 参考スコア(独自算出の注目度): 4.817647738745087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made significant strides in natural images and satellite remote sensing images. However, understanding low-altitude drone scenarios remains a challenge. Existing datasets primarily focus on a few specific low-altitude visual tasks, which cannot fully assess the ability of MLLMs in real-world low-altitude UAV applications. Therefore, we introduce UAVBench, a comprehensive benchmark, and UAVIT-1M, a large-scale instruction tuning dataset, designed to evaluate and improve MLLMs' abilities in low-altitude vision-language tasks. UAVBench comprises 43 test units and 966k high-quality data samples across 10 tasks at the image-level and region-level. UAVIT-1M consists of approximately 1.24 million diverse instructions, covering 789k multi-scene images and about 2,000 types of spatial resolutions with 11 distinct tasks. UAVBench and UAVIT-1M feature pure real-world visual images and rich weather conditions, and involve manual verification to ensure high quality. Our in-depth analysis of 11 state-of-the-art MLLMs using UAVBench reveals that open-source MLLMs cannot generate accurate conversations about low-altitude visual content, lagging behind closed-source MLLMs. Extensive experiments demonstrate that fine-tuning open-source MLLMs on UAVIT-1M significantly addresses this gap. Our contributions pave the way for bridging the gap between current MLLMs and low-altitude UAV real-world application demands. (Project page: https://UAVBench.github.io/)
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然画像や衛星リモートセンシング画像において大きな進歩を遂げている。
しかし、低高度ドローンのシナリオを理解することは依然として困難である。
既存のデータセットは主に、現実の低高度UAVアプリケーションにおけるMLLMの能力を十分に評価できないいくつかの特定の低高度視覚タスクに焦点を当てている。
そこで我々は,総合的なベンチマークであるUAVBenchと,低高度視覚言語タスクにおけるMLLMの能力の評価と改善を目的とした大規模インストラクションチューニングデータセットであるUAVIT-1Mを紹介する。
UAVBenchは、43の試験ユニットと、画像レベルと領域レベルの10タスクにわたる966kの高品質なデータサンプルで構成されている。
UAVIT-1Mは、約124万の多様な命令で構成され、789万のマルチシーン画像と、11の異なるタスクを持つ約2,000種類の空間解像度をカバーしている。
UAVBenchとUAVIT-1Mは、純粋に現実世界の視覚イメージと豊富な気象条件を備え、高品質の確認を手作業で行う。
UAVBenchを用いた11種類の最先端MLLMの詳細な分析により、オープンソースMLLMは、クローズドソースMLLMに遅れて、低高度のビジュアルコンテンツに関する正確な会話を生成できないことが明らかになった。
大規模な実験により、UAVIT-1M上の細調整のオープンソースMLLMは、このギャップに顕著に対処することが示された。
私たちのコントリビューションは、現在のMLLMと低高度UAVリアルタイムアプリケーション要求のギャップを埋める道を開くものです。
(プロジェクトページ:https://UAVBench.github.io/)
関連論文リスト
- MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios? [35.75859316774549]
MM-UAVBenchは、3つの中核機能次元(知覚、認知、低高度UAVシナリオ)にわたるMLLMを体系的に評価する総合的なベンチマークである。
MM-UAVBenchは19のサブタスクと5.7K以上の注釈付き質問で構成され、いずれも公開データセットから収集された実際のUAVデータに由来する。
我々の実験によると、現在のモデルは、低高度シナリオの複雑な視覚的および認知的要求に適応するのに苦労している。
論文 参考訳(メタデータ) (2025-12-29T05:49:54Z) - Test-Time Warmup for Multimodal Large Language Models [2.526814143603023]
本稿では,弱い教師付き補助タスクからのデータを活用することで,テストインスタンス毎のMLLMを適応させるテスト時間ワームアップ手法を提案する。
MMMUでは4.03%,VQA-Radでは5.28%,Llama-Vision-Instructモデルでは1.63%であった。
論文 参考訳(メタデータ) (2025-09-12T18:58:42Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。