論文の概要: MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
- arxiv url: http://arxiv.org/abs/2509.24002v1
- Date: Sun, 28 Sep 2025 17:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.584718
- Title: MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
- Title(参考訳): MCPMark: ストレステストリアルで総合的なMPP使用のためのベンチマーク
- Authors: Zijian Wu, Xiangyan Liu, Xinyuan Zhang, Lingjun Chen, Fanqing Meng, Lingxiao Du, Yiran Zhao, Fanshi Zhang, Yaoqi Ye, Jiawei Wang, Zirui Wang, Jinjie Ni, Yufan Yang, Arvin Xu, Michael Qizhe Shieh,
- Abstract要約: MCPMarkは、より現実的で包括的な方法でMPPの使用を評価するために設計されたベンチマークである。
ドメインの専門家とAIエージェントが共同で作成した127ドルの高品質なタスクで構成されている。
平均して、LCMは16.2ドル、タスクごとに17.4ドルのツールコールを必要とし、以前のMPPベンチマークよりも大幅に上回っている。
- 参考スコア(独自算出の注目度): 27.978435634514128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MCP standardizes how LLMs interact with external systems, forming the foundation for general agents. However, existing MCP benchmarks remain narrow in scope: they focus on read-heavy tasks or tasks with limited interaction depth, and fail to capture the complexity and realism of real-world workflows. To address this gap, we propose MCPMark, a benchmark designed to evaluate MCP use in a more realistic and comprehensive manner. It consists of $127$ high-quality tasks collaboratively created by domain experts and AI agents. Each task begins with a curated initial state and includes a programmatic script for automatic verification. These tasks demand richer and more diverse interactions with the environment, involving a broad range of create, read, update, and delete (CRUD) operations. We conduct a comprehensive evaluation of cutting-edge LLMs using a minimal agent framework that operates in a tool-calling loop. Empirical results show that the best-performing model, gpt-5-medium, reaches only $52.56$\% pass@1 and $33.86$\% pass^4, while other widely regarded strong models, including claude-sonnet-4 and o3, fall below $30$\% pass@1 and $15$\% pass^4. On average, LLMs require $16.2$ execution turns and $17.4$ tool calls per task, significantly surpassing those in previous MCP benchmarks and highlighting the stress-testing nature of MCPMark.
- Abstract(参考訳): MCPはLLMが外部システムとどのように相互作用するかを標準化し、汎用エージェントの基礎を形成する。
しかし、既存のMCPベンチマークはスコープが狭く、リードヘビーなタスクやインタラクションの深さが制限されたタスクに重点を置いており、現実世界のワークフローの複雑さとリアリズムを捉えていない。
このギャップに対処するために、より現実的で包括的な方法でMPPの使用を評価するために設計されたベンチマークであるMPPMarkを提案する。
ドメインの専門家とAIエージェントが共同で作成した127ドルの高品質なタスクで構成されている。
各タスクはキュレートされた初期状態から始まり、自動検証用のプログラムスクリプトを含む。
これらのタスクは環境とのよりリッチで多様なインタラクションを必要とし、CRUD操作の生成、読み込み、更新、削除を含む。
ツールコールループで動作する最小限のエージェントフレームワークを用いて,最先端LCMの包括的評価を行う。
実証的な結果は、最高のパフォーマンスモデルであるgpt-5-mediumが52.56$\% pass@1と33.86$\% pass^4にしか達せず、claude-sonnet-4とo3を含む他の広く認識されている強力なモデルが30$\% pass@1と15$\% pass^4に該当することを示している。
LLMは平均16.2ドル、タスク毎のツールコールは17.4ドルであり、従来のMPPベンチマークよりも大幅に上回っており、MPPMarkのストレステストの性質を強調している。
関連論文リスト
- MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Help or Hurdle? Rethinking Model Context Protocol-Augmented Large Language Models [9.49963945880421]
LLM-MCP相互作用を探索する最初の総合的評価フレームワークであるMPPGAUGEを紹介する。
MCPGAUGEは160プロンプトスイートと、知識理解、一般的な推論、コード生成にまたがる25のデータセットで構成されている。
当社の大規模評価では、6つの商用LCM、30のMPPツールスイート、および1ターンと2ターンの両方のインタラクション設定を対象とし、約20,000のAPIコールと6,000ドル以上の計算コストで構成されています。
論文 参考訳(メタデータ) (2025-08-18T02:06:05Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。