論文の概要: Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
- arxiv url: http://arxiv.org/abs/2604.03016v1
- Date: Fri, 03 Apr 2026 13:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.476115
- Title: Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
- Title(参考訳): Agentic-MME: エージェント能力がマルチモーダルインテリジェンスにもたらすものは何か?
- Authors: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, Jiaming Wang, Shuang Chen, Zechen Li, Yang Shi, Yuqi Tang, Weining Wang, Yi Yu, Chaoyou Fu, Qi Li, Yi-Fan Zhang,
- Abstract要約: Agentic-MMEはマルチモーダルエージェント能力のプロセス検証ベンチマークである。
6つのドメインにまたがる418の現実世界タスクと3つの困難レベルを含んでいる。
2,000以上のステップワイズなチェックポイントがあり、1タスクあたり平均10時間以上の手動アノテーションがある。
- 参考スコア(独自算出の注目度): 35.30497528897595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are evolving from passive observers into active agents, solving problems through Visual Expansion (invoking visual tools) and Knowledge Expansion (open-web search). However, existing evaluations fall short: they lack flexible tool integration, test visual and search tools separately, and evaluate primarily by final answers. Consequently, they cannot verify if tools were actually invoked, applied correctly, or used efficiently. To address this, we introduce Agentic-MME, a process-verified benchmark for Multimodal Agentic Capabilities. It contains 418 real-world tasks across 6 domains and 3 difficulty levels to evaluate capability synergy, featuring over 2,000 stepwise checkpoints that average 10+ person-hours of manual annotation per task. Each task includes a unified evaluation framework supporting sandboxed code and APIs, alongside a human reference trajectory annotated with stepwise checkpoints along dual-axis: S-axis and V-axis. To enable true process-level verification, we audit fine-grained intermediate states rather than just final answers, and quantify efficiency via an overthinking metric relative to human trajectories. Experimental results show the best model, Gemini3-pro, achieves 56.3% overall accuracy, which falls significantly to 23.0% on Level-3 tasks, underscoring the difficulty of real-world multimodal agentic problem solving.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、受動的オブザーバからアクティブエージェントへと進化し、視覚的拡張(Visual Expansion)と知識拡張(Knowledge Expansion)によって問題を解決する。
しかし、既存の評価は、柔軟なツール統合、視覚的ツールと検索ツールを別々に欠いているため、主に最終回答によって評価される。
そのため、実際にツールが呼び出されたか、正しく適用されたか、あるいは効率的に使用されたかは検証できない。
そこで本研究では,マルチモーダルエージェント能力のプロセス検証ベンチマークであるAgentic-MMEを紹介する。
6つのドメインにまたがる418の現実世界のタスクと、機能シナジーを評価するのに3つの困難レベルが含まれており、タスクあたり平均10時間以上の手動アノテーションを含む2,000以上のステップワイズチェックポイントを備えている。
各タスクには、サンドボックス化されたコードとAPIをサポートする統一された評価フレームワークと、S軸とV軸の2つの軸に沿って段階的にチェックポイントをアノテートされた人間の参照軌跡が含まれている。
真のプロセスレベルの検証を可能にするため、最終回答よりも細粒度な中間状態を検査し、人間の軌道に対する過度な基準によって効率を定量化する。
実験の結果、最も優れたモデルであるGemini3-proは56.3%の精度を達成し、これはレベル3タスクで23.0%に大幅に低下し、現実のマルチモーダルエージェント問題解決の難しさを浮き彫りにしている。
関連論文リスト
- AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios [32.58358574768901]
実世界のマルチモーダルエージェントは、視覚的証拠に根ざしたマルチステップを解決する。
既存のベンチマークは、主にシングルターンの視覚的推論または特定のツールスキルを評価する。
本稿では,汎用マルチモーダルエージェントのベンチマークであるAgentVistaを紹介する。
論文 参考訳(メタデータ) (2026-02-26T16:30:46Z) - InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents [60.89180545430896]
InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。
汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。
この設計は信頼性と非自明性の両方を保証する。
論文 参考訳(メタデータ) (2025-10-02T17:48:03Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks [94.19506319646376]
本稿では,実世界のマルチモーダル環境での視覚中心エージェント評価のためのベンチマークであるAgent-Xを紹介する。
Agent-Xは、828のエージェントタスクと、イメージ、マルチイメージ比較、ビデオ、命令テキストを含む、真の視覚的コンテキストを備えている。
その結果、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、多段階視覚タスクの解決に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-30T17:59:53Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。