論文の概要: M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark
- arxiv url: http://arxiv.org/abs/2511.17729v1
- Date: Fri, 21 Nov 2025 19:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.384748
- Title: M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark
- Title(参考訳): M3-Bench:マルチモーダル、マルチホップ、マルチスレッドツールを用いたMLLMエージェントベンチマーク
- Authors: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas,
- Abstract要約: M3-Benchは、Model Context Protocolの下で使用されるマルチモーダルツールを評価するための最初のベンチマークである。
我々は,各ツールコールをシリアライズし,文エンコーダにシグネチャを埋め込む類似性駆動アライメントを導入し,類似性に富んだハンガリー語マッチングを実行する。
ベンチマークは28のサーバと231のツールにまたがっており、人間による検証でExecutor & Judgeパイプラインを通じてキュレートされた標準化されたトラジェクトリを提供する。
- 参考スコア(独自算出の注目度): 45.755057449698825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench
- Abstract(参考訳): M^3-Bench は Model Context Protocol の下でマルチモーダルツールの使用を評価する最初のベンチマークである。
このベンチマークは、ビジュアルグラウンドイングとテキスト推論、クロスツール依存関係、ステップ間の中間リソースの永続化を必要とする、現実的でマルチホップ、マルチスレッドのワークフローをターゲットにしている。
本稿では,各ツールコールをシリアライズし,文エンコーダにシグネチャを埋め込む類似性駆動アライメントを導入する。
このアライメントに加えて、ワークフローの一貫性から意味的忠実性を分離する解釈可能なメトリクスを報告します。
ベンチマークは28のサーバと231のツールにまたがっており、人間による検証でExecutor & Judgeパイプラインを通じてキュレートされた標準化されたトラジェクトリを提供している。
代表的技術であるMLLM(Multimodal LLM)の評価は、特に議論の忠実度と構造整合性において、画像、テキスト、ツールグラフを共同で推論する手法の必要性を強調し、マルチモーダルMPPツールの使用における永続的なギャップを明らかにしている。
Benchmarkの匿名リポジトリはhttps://github.com/EtaYang10th/Open-M3-Benchにある。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark [6.470909719300937]
Model Context Protocol(MCP)は、AI Agentにコンテキストを供給する標準化された方法を提供する。
LLMとAI AgentsのMPPツール使用能力の評価にはいくつかの問題がある。
大規模マルチドメインAIエージェントツールのベンチマークであるMPPToolBench++を提案する。
論文 参考訳(メタデータ) (2025-08-11T03:16:02Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges [30.68589269821412]
既存のベンチマークでは、言語モデル(LM)を言語エージェント(LA)としてツールとして評価しており、主にシングルターンインタラクションに重点を置いている。
ツール使用のライフサイクル全体を考慮した,ステートフルなツールインタラクションを備えたマルチターン対話データセットである textttDialogTool を提案する。
論文 参考訳(メタデータ) (2025-05-19T16:36:13Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。