論文の概要: HumanMCP: A Human-Like Query Dataset for Evaluating MCP Tool Retrieval Performance
- arxiv url: http://arxiv.org/abs/2602.23367v1
- Date: Thu, 18 Dec 2025 01:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.924325
- Title: HumanMCP: A Human-Like Query Dataset for Evaluating MCP Tool Retrieval Performance
- Title(参考訳): HumanMCP: MCPツール検索性能評価のためのヒューマンライクなクエリデータセット
- Authors: Shubh Laddha, Lucas Changbencharoen, Win Kuptivej, Surya Shringla, Archana Vaidheeswaran, Yash Bhaskar,
- Abstract要約: Model Context Protocol (MCP) サーバには数千のオープンソース標準化ツールが含まれている。
既存のデータセットとベンチマークには、現実的なヒューマンライクなユーザクエリが欠けている。
本稿では,多様で高品質なユーザクエリを特徴とする,最初の大規模MPPデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model Context Protocol (MCP) servers contain a collection of thousands of open-source standardized tools, linking LLMs to external systems; however, existing datasets and benchmarks lack realistic, human-like user queries, remaining a critical gap in evaluating the tool usage and ecosystems of MCP servers. Existing datasets often do contain tool descriptions but fail to represent how different users portray their requests, leading to poor generalization and inflated reliability of certain benchmarks. This paper introduces the first large-scale MCP dataset featuring diverse, high-quality diverse user queries generated specifically to match 2800 tools across 308 MCP servers, developing on the MCP Zero dataset. Each tool is paired with multiple unique user personas that we have generated, to capture varying levels of user intent ranging from precise task requests, and ambiguous, exploratory commands, reflecting the complexity of real-world interaction patterns.
- Abstract(参考訳): Model Context Protocol (MCP) サーバには、LCMを外部システムにリンクする、数千のオープンソース標準化ツールの集合が含まれているが、既存のデータセットとベンチマークには現実的なヒューマンライクなユーザクエリが欠けており、MPPサーバのツール使用とエコシステムを評価する上で重要なギャップが残っている。
既存のデータセットにはツール記述が含まれていることが多いが、異なるユーザが要求をどのように表現しているかを表現できないため、一般化が不十分で、特定のベンチマークの信頼性が低下する。
本稿では,308のMPPサーバにまたがる2800のツールに特化して生成する多種多様な多種多様なユーザクエリを特徴とする,初の大規模MPPデータセットを提案する。
それぞれのツールは、私たちが生成した複数のユニークなユーザペルソナと組み合わせて、正確なタスク要求から、曖昧で探索的なコマンドまで、さまざまなレベルのユーザ意図をキャプチャし、現実世界のインタラクションパターンの複雑さを反映します。
関連論文リスト
- MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - MCPZoo: A Large-Scale Dataset of Runnable Model Context Protocol Servers for AI Agent [21.609308232244118]
Model Context Protocol (MCP) はエージェントが外部ツールと対話することを可能にするが、MCPに関する実証的研究は大規模でアクセス可能なデータセットの欠如によって妨げられている。
95,142サーバからなる複数のパブリックソースから収集された,最大かつ最も包括的なMPPサーバデータセットであるMPPZooを提案する。
論文 参考訳(メタデータ) (2025-12-17T07:13:08Z) - MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers [24.6512259539754]
MCP-Benchは、大規模言語モデル(LLM)を現実的なマルチステップタスクで評価するためのベンチマークである。
MCP-Bench は Model Context Protocol (MCP) 上に構築されており、金融、旅行、科学計算、学術検索などの分野にまたがる250のツールにまたがる28のライブ MCP サーバに LLM を接続している。
論文 参考訳(メタデータ) (2025-08-28T05:58:57Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark [6.470909719300937]
Model Context Protocol(MCP)は、AI Agentにコンテキストを供給する標準化された方法を提供する。
LLMとAI AgentsのMPPツール使用能力の評価にはいくつかの問題がある。
大規模マルチドメインAIエージェントツールのベンチマークであるMPPToolBench++を提案する。
論文 参考訳(メタデータ) (2025-08-11T03:16:02Z) - LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文 参考訳(メタデータ) (2025-08-03T14:36:42Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - Task Me Anything [72.810309406219]
本稿では,ユーザのニーズに合わせたベンチマークを作成する。
113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。
750万のイメージ/ビデオ問合せペアを生成することが可能で、知覚能力の評価に重点を置いている。
論文 参考訳(メタデータ) (2024-06-17T17:32:42Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。