論文の概要: AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2511.11025v1
- Date: Fri, 14 Nov 2025 07:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.474316
- Title: AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning
- Title(参考訳): AirCopBench: マルチドロンの協調的身体的知覚と推論のためのベンチマーク
- Authors: Jirong Zha, Yuxuan Fan, Tianyu Zhang, Geng Chen, Yingfeng Chen, Chen Gao, Xinlei Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)は、単一エージェントビジョンタスクにおいて有望であることを示す。
AirCopBenchは、MLLMを体感的に評価するために設計された最初の総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 33.49390843688711
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown promise in single-agent vision tasks, yet benchmarks for evaluating multi-agent collaborative perception remain scarce. This gap is critical, as multi-drone systems provide enhanced coverage, robustness, and collaboration compared to single-sensor setups. Existing multi-image benchmarks mainly target basic perception tasks using high-quality single-agent images, thus failing to evaluate MLLMs in more complex, egocentric collaborative scenarios, especially under real-world degraded perception conditions.To address these challenges, we introduce AirCopBench, the first comprehensive benchmark designed to evaluate MLLMs in embodied aerial collaborative perception under challenging perceptual conditions. AirCopBench includes 14.6k+ questions derived from both simulator and real-world data, spanning four key task dimensions: Scene Understanding, Object Understanding, Perception Assessment, and Collaborative Decision, across 14 task types. We construct the benchmark using data from challenging degraded-perception scenarios with annotated collaborative events, generating large-scale questions through model-, rule-, and human-based methods under rigorous quality control. Evaluations on 40 MLLMs show significant performance gaps in collaborative perception tasks, with the best model trailing humans by 24.38% on average and exhibiting inconsistent results across tasks. Fine-tuning experiments further confirm the feasibility of sim-to-real transfer in aerial collaborative perception and reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、単一エージェントビジョンタスクにおいて有望であるが、マルチエージェント協調知覚を評価するためのベンチマークは乏しい。
このギャップは、マルチドローンシステムによって、シングルセンサーのセットアップと比較して、カバレッジ、堅牢性、コラボレーションが強化されるため、非常に重要である。
既存のマルチイメージベンチマークは主に高品質の単一エージェント画像を用いた基本的な知覚タスクを対象としており、特に現実の劣化した知覚条件下では、より複雑でエゴセントリックな協調シナリオでのMLLMの評価に失敗している。
AirCopBenchには、シミュレータと実世界のデータの両方から得られた14.6k以上の質問が含まれている。
我々は, 厳密な品質管理の下でのモデル, ルール, 人為的手法を用いて, 大規模な質問を発生させる, 注釈付き協調イベントによる劣化知覚シナリオから得られたデータを用いて, ベンチマークを構築した。
40のMLLMの評価は、協調的な知覚タスクにおいて顕著なパフォーマンスギャップを示し、最高のモデルは平均24.38%、タスク間で矛盾した結果を示す。
微調整実験により、空中の協調知覚と推論におけるsim-to-real転送の可能性がさらに確認される。
関連論文リスト
- Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。
私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。
GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文 参考訳(メタデータ) (2024-04-05T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。