論文の概要: MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
- arxiv url: http://arxiv.org/abs/2509.09734v1
- Date: Wed, 10 Sep 2025 14:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.868029
- Title: MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools
- Title(参考訳): MCP-AgentBench: MCP-Mediatedツールによる実世界の言語エージェントのパフォーマンス評価
- Authors: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao,
- Abstract要約: Model Context Protocol (MCP) はエージェント・ツールの統合と相互運用性を高めるために設計されたオープン標準である。
既存のベンチマークでは、この新しいパラダイムで実世界のエージェントのパフォーマンスをキャプチャできない場合が多い。
MCP-AgentBenchは、MPPを介するツールインタラクションにおいて、言語エージェントの機能を厳格に評価するために特別に設計された包括的なベンチマークである。
- 参考スコア(独自算出の注目度): 34.40084689889526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Model Context Protocol (MCP) is rapidly emerging as a pivotal open standard, designed to enhance agent-tool integration and interoperability, and is positioned to unlock a new era of powerful, interconnected, and genuinely utilitarian agentic AI. However, despite MCP's growing adoption, existing benchmarks often fail to capture real-world agent performance within this new paradigm, leading to a distorted perception of their true operational value and an inability to reliably differentiate proficiencies. To bridge this critical evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark specifically engineered to rigorously assess language agent capabilities in MCP-mediated tool interactions. Core contributions of MCP-AgentBench include: the establishment of a robust MCP testbed comprising 33 operational servers with 188 distinct tools; the development of a benchmark featuring 600 systematically designed queries distributed across 6 distinct categories of varying interaction complexity; and the introduction of MCP-Eval, a novel outcome-oriented evaluation methodology prioritizing real-world task success. Through extensive empirical evaluation of leading language agents, we provide foundational insights. MCP-AgentBench aims to equip the research community with a standardized and reliable framework to build, validate, and advance agents capable of fully leveraging MCP's transformative benefits, thereby accelerating progress toward truly capable and interoperable AI systems.
- Abstract(参考訳): Model Context Protocol(MCP)は、エージェントツールの統合と相互運用性を強化するために設計された、重要なオープン標準として急速に発展し、パワフルで相互接続され、真に実用的なエージェントAIの新たな時代を解放する位置にある。
しかし、MCPの採用が増加しているにもかかわらず、既存のベンチマークは、この新しいパラダイムの中で現実世界のエージェントのパフォーマンスを捉えられず、真の運用価値の歪んだ認識と、確実に熟練度を区別することができない。
この重要な評価ギャップを埋めるために、私たちは、MPP-AgentBenchという、MPPを介するツールインタラクションにおいて、言語エージェントの機能を厳格に評価するために特別に設計された包括的なベンチマークを紹介します。
MCP-AgentBench のコアコントリビューションには、33の運用サーバと188の異なるツールからなる堅牢な MCP テストベッドの確立、600の体系的に設計されたクエリを特徴とする6つの異なる相互作用複雑性のカテゴリに分散させたベンチマークの開発、そして、実際のタスクの成功を優先する新たな結果指向評価手法である MCP-Eval の導入がある。
先行する言語エージェントの広範な経験的評価を通じて、基礎的な洞察を提供する。
MCP-AgentBenchは、MPPの変革的利益を完全に活用し、真に有能で相互運用可能なAIシステムに向けた進歩を加速する、標準的で信頼性の高いフレームワークを研究コミュニティに提供することを目的としている。
関連論文リスト
- MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。
MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (2025-08-28T05:58:57Z) - LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries [38.56775962026289]
提案するLiveMCP-101は,リアルタイムクエリを慎重にキュレートした101のベンチマークである。
実験により、フロンティアのLLMでさえ60%未満の成功率を達成することが示された。
LiveMCP-101は現実世界のエージェント能力を評価するための厳格な標準を設定している。
論文 参考訳(メタデータ) (2025-08-21T17:55:54Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving [28.87376403573416]
本稿では,汎用タスク解決のための階層型マルチエージェントフレームワークであるAgentOrchestraを紹介する。
複雑な目的を分解し、サブタスクを専門エージェントのチームに委譲する中央計画エージェントが特徴である。
LLMをベースとしたエージェントシステムを評価するために,このフレームワークを3つの広く使用されているベンチマークで評価する。
論文 参考訳(メタデータ) (2025-06-14T13:45:37Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。