論文の概要: MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark
- arxiv url: http://arxiv.org/abs/2508.07575v1
- Date: Mon, 11 Aug 2025 03:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.92041
- Title: MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark
- Title(参考訳): MCPToolBench++: ベンチマークを使用した大規模AIエージェントモデルコンテキストプロトコルMSPツール
- Authors: Shiqing Fan, Xichen Ding, Liang Zhang, Linjian Mo,
- Abstract要約: Model Context Protocol(MCP)は、AI Agentにコンテキストを供給する標準化された方法を提供する。
LLMとAI AgentsのMPPツール使用能力の評価にはいくつかの問題がある。
大規模マルチドメインAIエージェントツールのベンチマークであるMPPToolBench++を提案する。
- 参考スコア(独自算出の注目度): 6.470909719300937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs' capabilities are enhanced by using function calls to integrate various data sources or API results into the context window. Typical tools include search, web crawlers, maps, financial data, file systems, and browser usage, etc. Integrating these data sources or functions requires a standardized method. The Model Context Protocol (MCP) provides a standardized way to supply context to LLMs. However, the evaluation of LLMs and AI Agents' MCP tool use abilities suffer from several issues. First, there's a lack of comprehensive datasets or benchmarks to evaluate various MCP tools. Second, the diverse formats of response from MCP tool call execution further increase the difficulty of evaluation. Additionally, unlike existing tool-use benchmarks with high success rates in functions like programming and math functions, the success rate of real-world MCP tool is not guaranteed and varies across different MCP servers. Furthermore, the LLMs' context window also limits the number of available tools that can be called in a single run, because the textual descriptions of tool and the parameters have long token length for an LLM to process all at once. To help address the challenges of evaluating LLMs' performance on calling MCP tools, we propose MCPToolBench++, a large-scale, multi-domain AI Agent tool use benchmark. As of July 2025, this benchmark is build upon marketplace of over 4k MCP servers from more than 40 categories, collected from the MCP marketplaces and GitHub communities. The datasets consist of both single-step and multi-step tool calls across different categories. We evaluated SOTA LLMs with agentic abilities on this benchmark and reported the results.
- Abstract(参考訳): LLMの機能は、関数呼び出しを使用してさまざまなデータソースやAPI結果をコンテキストウィンドウに統合することによって強化される。
典型的なツールは、検索、Webクローラ、マップ、財務データ、ファイルシステム、ブラウザの利用などである。
これらのデータソースや関数を統合するには、標準化された方法が必要です。
Model Context Protocol (MCP) は、LCMにコンテキストを供給するための標準化された方法を提供する。
しかし、LLMとAI AgentsのMPPツールの使用能力の評価にはいくつかの問題がある。
まず、様々なMPPツールを評価するための包括的なデータセットやベンチマークが欠如しています。
第2に,MPPツールコールの実行による応答の多様さは,評価の難しさをさらに高める。
さらに、プログラミングや数学関数などの関数で高い成功率を持つ既存のツール使用ベンチマークとは異なり、実際のMSPツールの成功率は保証されておらず、異なるMSPサーバで異なる。
さらに、LLMのコンテキストウィンドウは、ツールとパラメータのテキスト記述がLLMが一度に処理するための長いトークン長を持つため、単一の実行で呼び出すことのできるツールの数を制限する。
MCP ツールの呼び出しにおける LLM の性能評価の課題に対処するために,大規模マルチドメイン AI Agent ツールのベンチマークである MCPToolBench++ を提案する。
2025年7月時点で、このベンチマークは40以上のカテゴリから4k以上のMSPサーバのマーケットプレース上に構築されており、MSPマーケットプレースとGitHubコミュニティから収集されている。
データセットは、さまざまなカテゴリにわたるシングルステップとマルチステップのツールコールで構成されている。
我々は,SOTA LLMをエージェント能力で評価し,その結果を報告する。
関連論文リスト
- Gecko: A Simulation Environment with Stateful Feedback for Refining Agent Tool Calls [56.407063247662336]
本稿では,ルールとLLMを組み合わせてツール応答をシミュレートする総合環境であるGeckoを紹介する。
GATS は GPT-4o, GPT-5, Gemini-3.0-pro など様々な LLM のツールコール性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-22T15:02:00Z) - MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark [45.755057449698825]
M3-Benchは、Model Context Protocolの下で使用されるマルチモーダルツールを評価するための最初のベンチマークである。
我々は,各ツールコールをシリアライズし,文エンコーダにシグネチャを埋め込む類似性駆動アライメントを導入し,類似性に富んだハンガリー語マッチングを実行する。
ベンチマークは28のサーバと231のツールにまたがっており、人間による検証でExecutor & Judgeパイプラインを通じてキュレートされた標準化されたトラジェクトリを提供する。
論文 参考訳(メタデータ) (2025-11-21T19:27:02Z) - OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-10-28T15:56:36Z) - MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。
MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (2025-08-28T05:58:57Z) - MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。
MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文 参考訳(メタデータ) (2025-08-22T09:47:53Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [33.250579401886206]
本稿では,モデルコンテキストプロトコル(MCP)フレームワークにおいて,LLM(Large Language Models)の性能を評価するために設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MPP-RADARは複数のタスク領域にわたる客観的な定量測定を採用する。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。
私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。
MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T15:46:17Z) - GTA: A Benchmark for General Tool Agents [32.443456248222695]
229個の実世界のタスクと実行可能なツールチェーンを設計し、主要な大言語モデル(LLM)を評価する。
GPT-4 はタスクの 50% 以下であり,ほとんどの LLM は 25% 以下である。
この評価は、現実シナリオにおける現在のLLMのツール利用能力のボトルネックを明らかにし、汎用ツールエージェントを前進させるための今後の方向性を提供する。
論文 参考訳(メタデータ) (2024-07-11T17:50:09Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning [40.32823306537386]
本稿では,オープンソースの大規模言語モデルとマルチモーダルエンコーダを組み合わせたMLLM-Toolを提案する。
データセットにはHuggingFaceからのマルチモーダル入力ツールが特徴です。
実験の結果,MLLM-Toolはマルチモーダル命令に適したツールを推奨できることがわかった。
論文 参考訳(メタデータ) (2024-01-19T14:44:37Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。