論文の概要: MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use
- arxiv url: http://arxiv.org/abs/2508.16260v1
- Date: Fri, 22 Aug 2025 09:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.343769
- Title: MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use
- Title(参考訳): MCPVerse: エージェントツール用の拡張的で実世界のベンチマーク
- Authors: Fei Lei, Yibo Yang, Wenxiu Sun, Dahua Lin,
- Abstract要約: 我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。
MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
- 参考スコア(独自算出の注目度): 72.53177559476704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are evolving from text generators into reasoning agents. This transition makes their ability to use external tools a critical capability. However, evaluating this skill presents a significant challenge. Existing benchmarks are often limited by their reliance on synthetic tools and severely constrained action spaces. To address these limitations, we introduce MCPVerse, an expansive, real-world benchmark for evaluating agentic tool use. MCPVerse integrates more than 550 real-world, executable tools to create an unprecedented action space exceeding 140k tokens, and employs outcome-based evaluation with real-time ground truth for time-sensitive tasks. We benchmarked the state-of-the-art LLMs across three modes (Oracle, Standard, and Max-Scale), revealing that while most models suffer performance degradation when confronted with larger tool sets, the agentic models, such as Claude-4-Sonnet, can effectively leverage expanded exploration spaces to improve accuracy. This finding not only exposes the limitations of state-of-the-art models in complex, real-world scenarios but also establishes MCPVerse as a critical benchmark for measuring and advancing agentic tool use capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキストジェネレータから推論エージェントへと進化している。
この移行によって、外部ツールの使用が重要な機能になる。
しかし、このスキルを評価することは大きな課題である。
既存のベンチマークは、合成ツールや厳しい制約のあるアクション空間に依存しているため、しばしば制限される。
これらの制約に対処するために,エージェントツールの使用を評価するための拡張性のある実世界のベンチマークであるMPPVerseを紹介する。
MCPVerseは、実世界の550以上の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成し、時間に敏感なタスクにリアルタイムな基底真理を用いた結果に基づく評価を採用する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークし、ほとんどのモデルが大きなツールセットに直面するとパフォーマンス劣化に悩まされるが、Claude-4-Sonnetのようなエージェントモデルは、拡張された探索空間を効果的に活用して精度を向上させることができることを示した。
この発見は、複雑な実世界のシナリオにおける最先端モデルの限界を露呈するだけでなく、エージェントツールの使用能力の測定と向上のための重要なベンチマークとして、MCPVerseを確立している。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。