論文の概要: LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
- arxiv url: http://arxiv.org/abs/2508.01780v1
- Date: Sun, 03 Aug 2025 14:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.059406
- Title: LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?
- Title(参考訳): LiveMCPBench:エージェントはMCPツールの海洋をナビゲートできるか?
- Authors: Guozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun,
- Abstract要約: モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
- 参考スコア(独自算出の注目度): 50.60770039016318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of Model Context Protocol (MCP), the number of MCP servers has surpassed 10,000. However, existing MCP benchmarks are limited to single-server settings with only a few tools, hindering effective evaluation of agent capabilities in large-scale, real-world scenarios. To address this limitation, we present LiveMCPBench, the first comprehensive benchmark comprising 95 real-world tasks grounded in the MCP ecosystem, designed to evaluate LLM agents at scale across diverse servers. To support a scalable and reproducible evaluation pipeline in large-scale MCP environments, we curate LiveMCPTool, a diverse and readily deployable collection of 70 MCP servers and 527 tools. Furthermore, we introduce LiveMCPEval, an LLM-as-a-Judge framework that enables automated and adaptive evaluation in dynamic, time-varying task environments, achieving 81% agreement with human reviewers. Finally, we propose the MCP Copilot Agent, a multi-step agent that routes tools for dynamic planning and executes tools for API interaction across the entire LiveMCPTool suite. Our evaluation covers 10 leading models, with the best-performing model (Claude-Sonnet-4) reaching a 78.95% success rate. However, we observe large performance variance across models, and several widely-used models perform poorly in LiveMCPBench's complex, tool-rich environments. Overall, LiveMCPBench offers the first unified framework for benchmarking LLM agents in realistic, tool-rich, and dynamic MCP environments, laying a solid foundation for scalable and reproducible research on agent capabilities. Our code and data will be publicly available at https://icip-cas.github.io/LiveMCPBench.
- Abstract(参考訳): Model Context Protocol(MCP)の急速な開発により、MSPサーバの数は1万を超えている。
しかし、既存のMPPベンチマークは、少数のツールしか持たないシングルサーバ設定に限定されており、大規模な実世界のシナリオにおいて、エージェント能力の効果的な評価を妨げている。
この制限に対処するために,MPPエコシステムに基盤を置く95の現実世界タスクからなる,初の総合ベンチマークであるLiveMCPBenchを紹介した。
大規模MPP環境でスケーラブルで再現可能な評価パイプラインをサポートするため,我々は,70のMPPサーバと527のツールを多様かつ容易にデプロイ可能なLiveMCPToolをキュレートした。
LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入し、動的・時間的タスク環境における適応的評価を可能にし、人間レビュアーとの81%の合意を達成する。
最後に、マルチステップエージェントであるMCP Copilot Agentを提案し、動的計画のためのツールをルーティングし、LiveMCPToolスイート全体にわたってAPIインタラクションのためのツールを実行する。
評価では,最高性能モデル(Claude-Sonnet-4)が78.95%の成功率に達した10種類の先行モデルについて検討した。
しかし,本研究では,LiveMCPBenchの複雑でツールリッチな環境において,モデル間の性能のばらつきを観察する。
全体として、LiveMCPBench は LLM エージェントを現実的でツールリッチで動的な MCP 環境でベンチマークするための最初の統一フレームワークを提供する。
私たちのコードとデータはhttps://icip-cas.github.io/LiveMCPBench.comで公開されます。
関連論文リスト
- MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - A Large-Scale Evolvable Dataset for Model Context Protocol Ecosystem and Security Analysis [8.943261888363622]
約14KのMPPサーバと300のMPPクライアントを含む大規模データセットであるMCPCorpusを紹介する。
各アーティファクトには、アイデンティティ、インターフェース設定、GitHubアクティビティ、メタデータをキャプチャする20以上の正規化された属性がアノテートされている。
MCPCorpusは、実世界のMCPエコシステムの再現可能なスナップショットを提供し、採用トレンド、エコシステムの健全性、実装の多様性の研究を可能にする。
論文 参考訳(メタデータ) (2025-06-30T02:37:27Z) - MCP-Zero: Active Tool Discovery for Autonomous LLM Agents [13.005899769943442]
ツール発見の自律性を LLM 自体に復元する,アクティブエージェントフレームワークである MCP-Zero を紹介する。
すべての利用可能なツールで圧倒的なモデルを使用する代わりに、CP-Zeroはエージェントが能率ギャップを積極的に識別し、特定のツールをオンデマンドで要求することを可能にする。
公式の Model-Context-Protocol リポジトリから 308 の MCP サーバと 2,797 ツールの包括的なデータセットである MCP-tools を構築した。
論文 参考訳(メタデータ) (2025-06-01T15:48:53Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - ScaleMCP: Dynamic and Auto-Synchronizing Model Context Protocol Tools for LLM Agents [1.7217813564531652]
ScaleMCPは、エージェントにMPPツールレトリバーを動的に装備する新しいツール選択アプローチである。
エージェントは、メモリにツールを追加する自律性に加えて、自動同期ツールストレージシステムパイプラインを提供する。
5000のファイナンシャルメトリックMCPサーバからなるデータセットを用いて総合評価を行い、ツール検索とエージェント起動性能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-05-09T20:30:37Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。