論文の概要: MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
- arxiv url: http://arxiv.org/abs/2508.14704v1
- Date: Wed, 20 Aug 2025 13:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.466215
- Title: MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
- Title(参考訳): MCP-Universe: 実世界モデルコンテキストプロトコルサーバによる大規模言語モデルのベンチマーク
- Authors: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li,
- Abstract要約: MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
- 参考スコア(独自算出の注目度): 86.00932417210477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Model Context Protocol has emerged as a transformative standard for connecting large language models to external data sources and tools, rapidly gaining adoption across major AI providers and development platforms. However, existing benchmarks are overly simplistic and fail to capture real application challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To address this critical gap, we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching. To ensure rigorous evaluation, we implement execution-based evaluators, including format evaluators for agent format compliance, static evaluators for time-invariant content matching, and dynamic evaluators that automatically retrieve real-time ground truth for temporally sensitive tasks. Through extensive evaluation of leading LLMs, we find that even SOTA models such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit significant performance limitations. In addition, our benchmark poses a significant long-context challenge for LLM agents, as the number of input tokens increases rapidly with the number of interaction steps. Moreover, it introduces an unknown-tools challenge, as LLM agents often lack familiarity with the precise usage of the MCP servers. Notably, enterprise-level agents like Cursor cannot achieve better performance than standard ReAct frameworks. Beyond evaluation, we open-source our extensible evaluation framework with UI support, enabling researchers and practitioners to seamlessly integrate new agents and MCP servers while fostering innovation in the rapidly evolving MCP ecosystem.
- Abstract(参考訳): Model Context Protocolは、大きな言語モデルを外部データソースやツールに接続するためのトランスフォーメーション標準として登場し、主要なAIプロバイダや開発プラットフォームで急速に採用されている。
しかし、既存のベンチマークは過度に単純化されており、長い水平推論や大きな、馴染みの無いツールスペースのような実際のアプリケーションの課題を捉えていない。
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合的なベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
厳密な評価を確保するため,エージェントフォーマットコンプライアンスのためのフォーマット評価器,時変コンテンツマッチングのための静的評価器,時間に敏感なタスクのためのリアルタイムグラウンド真理を自動検索する動的評価器など,実行ベースの評価器を実装した。
GPT-5 (43.72%) やGrok-4 (33.33%) 、Claude-4.0-Sonnet (29.44%) といったSOTAモデルでさえ大きな性能上の制限がある。
さらに,本ベンチマークでは,対話のステップ数の増加に伴い,入力トークンの数が急速に増加するため,LLMエージェントの長期的課題となる。
さらに、LCMエージェントはMPPサーバの正確な使用法に精通していないことが多いため、未知のツールの課題も導入されている。
特に、Cursorのようなエンタープライズレベルのエージェントは、標準のReActフレームワークよりも優れたパフォーマンスを達成できない。
評価以外にも、UIサポートを備えた拡張可能な評価フレームワークをオープンソース化し、研究者や実践者が新しいエージェントとMPPサーバをシームレスに統合し、急速に進化するMBPエコシステムにおけるイノベーションを育むことができます。
関連論文リスト
- MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。