論文の概要: MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16700v2
- Date: Sun, 12 Oct 2025 14:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.845793
- Title: MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
- Title(参考訳): MCP-RADAR:大規模言語モデルにおけるツール使用能力評価のための多次元ベンチマーク
- Authors: Xuanqi Gao, Siyi Xie, Juan Zhai, Shiqing Ma, Chao Shen,
- Abstract要約: 本稿では,モデルコンテキストプロトコル(MCP)フレームワークにおいて,LLM(Large Language Models)の性能を評価するために設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MPP-RADARは複数のタスク領域にわたる客観的な定量測定を採用する。
- 参考スコア(独自算出の注目度): 33.250579401886206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from passive text generators to active reasoning agents capable of interacting with external tools, the Model Context Protocol (MCP) has emerged as a key standardized framework for dynamic tool discovery and orchestration. Despite its widespread industry adoption, existing evaluation methods do not adequately assess tool utilization capabilities under this new paradigm. To address this gap, this paper introduces MCP-RADAR, the first comprehensive benchmark specifically designed to evaluate LLM performance within the MCP framework. MCP-RADAR features a challenging dataset of 507 tasks spanning six domains: mathematical reasoning, web search, email, calendar, file management, and terminal operations. It quantifies performance based on two primary criteria: answer correctness and operational accuracy. To closely emulate real-world usage, our evaluation employs both authentic MCP tools and high-fidelity simulations of official tools. Unlike traditional benchmarks that rely on subjective human evaluation or binary success metrics, MCP-RADAR adopts objective, quantifiable measurements across multiple task domains, including computational resource efficiency and the number of successful tool-invocation rounds. Our evaluation of leading closed-source and open-source LLMs reveals distinct capability profiles and highlights a significant trade-off between accuracy and efficiency. Our findings provide actionable insights for both LLM developers and tool creators, establishing a standardized methodology applicable to the broader LLM agent ecosystem. All implementations, configurations, and datasets are publicly available at https://anonymous.4open.science/r/MCPRadar-B143.
- Abstract(参考訳): 大規模言語モデル(LLM)が受動的テキストジェネレータから外部ツールと対話可能なアクティブ推論エージェントへと進化するにつれ、モデルコンテキストプロトコル(MCP)は動的ツールの発見とオーケストレーションのための重要な標準フレームワークとして登場した。
業界が広く採用されているにもかかわらず、既存の評価手法では、この新しいパラダイムの下でツールの利用能力を適切に評価していない。
このギャップに対処するために,本研究では,MPPフレームワーク内でのLCM性能を評価するために設計された,初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
答えの正しさと操作の正確さの2つの主要な基準に基づいて、パフォーマンスを定量化する。
実世界の利用を密にエミュレートするために,我々の評価では,正真正銘のMPPツールと,公式ツールの高忠実度シミュレーションの両方を用いる。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MCP-RADARは、計算資源効率や成功したツール起動ラウンドの数など、複数のタスク領域にわたる客観的な定量化計測を採用する。
クローズドソースおよびオープンソース LLM をリードする評価では,異なる機能プロファイルが示され,精度と効率のトレードオフが顕著に浮かび上がっている。
LLM開発者とツールクリエータの両方に実用的な洞察を与え,より広範なLLMエージェントエコシステムに適用可能な,標準化された方法論を確立した。
すべての実装、設定、データセットはhttps://anonymous.4open.science/r/MCPRadar-B143で公開されている。
関連論文リスト
- MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models [0.0]
大規模言語モデル(LLM)を定量的に評価するベンチマークであるTMIQ(Test and Measurement Intelligence Quotient)を導入する。
TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)など、詳細な評価のための包括的なシナリオとメトリクスを提供する。
各種LSMの試験では, SCPIコマンドマッチング精度は56%から73%, 一致した第1位スコアは約33%であった。
論文 参考訳(メタデータ) (2025-03-03T23:12:49Z) - Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity [17.723293304671877]
我々は、パーソナライズされたツール呼び出しを評価するための新しいベンチマークETAPPを紹介する。
評価精度を向上させるために,キーポイントに基づく評価手法を提案する。
好み設定とキーポイントに基づく評価手法の有効性も検証した。
論文 参考訳(メタデータ) (2025-03-02T07:36:22Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。
イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Balancing Efficiency and Effectiveness: An LLM-Infused Approach for Optimized CTR Prediction [19.657522015829922]
エンド・ツー・エンドの深い意味情報をモデル化する新しいアプローチを導入する。
私たちのフレームワークは効率と効率のバランスをとるために慎重に設計されています。
Meituan sponsored-searchシステムで実施したオンラインA/Bテストでは,コスト・パー・マイル(CPM)とクリック・スルー・レート(CTR)でベースライン・モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-12-09T02:36:38Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。