論文の概要: MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16700v1
- Date: Thu, 22 May 2025 14:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.345915
- Title: MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models
- Title(参考訳): MCP-RADAR:大規模言語モデルにおけるツール使用能力評価のための多次元ベンチマーク
- Authors: Xuanqi Gao, Siyi Xie, Juan Zhai, Shqing Ma, Chao Shen,
- Abstract要約: 本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
- 参考スコア(独自算出の注目度): 11.809732662992982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) evolve from passive text generators to active reasoning agents capable of tool interaction, the Model Context Protocol (MCP) has emerged as a standardized framework for dynamic tool discovery and orchestration. Despite widespread industry adoption, existing evaluation methodologies fail to adequately assess tool utilization capabilities within this new paradigm. This paper introduces MCP-RADAR, the first comprehensive benchmark specifically designed to evaluate LLM performance in the MCP framework through a novel five-dimensional approach measuring: answer accuracy, tool selection efficiency, computational resource efficiency, parameter construction accuracy, and execution speed. Unlike conventional benchmarks that rely on subjective human evaluations or binary success metrics, MCP-RADAR employs objective, quantifiable measurements across multiple task domains including software engineering, mathematical reasoning, and general problem-solving. Our evaluations of leading commercial and open-source LLMs reveal distinctive capability profiles with significant trade-offs between accuracy, efficiency, and speed, challenging traditional single-metric performance rankings. Besides, we provide valuable guidance for developers to optimize their tools for maximum model compatibility and effectiveness. While focused on MCP due to its standardized approach, our methodology remains applicable across all LLM agent tool integration frameworks, providing valuable insights for both LLM developers and tool creators to optimize the entire LLM-tool interaction ecosystem. The implementation, configurations, and datasets used in our evaluation are publicly available at https://anonymous.4open.science/r/MCPRadar-B143.
- Abstract(参考訳): 大規模言語モデル(LLM)が受動的テキストジェネレータからツールインタラクションが可能なアクティブ推論エージェントへと進化するにつれ、モデルコンテキストプロトコル(MCP)は動的ツールの発見とオーケストレーションのための標準化されたフレームワークとして登場した。
業界が広く採用されているにもかかわらず、既存の評価手法は、この新しいパラダイムにおけるツール利用能力の適切な評価に失敗している。
本稿では,MCPフレームワークにおけるLCM性能を評価するために,解答精度,ツール選択効率,計算資源効率,パラメータ構築精度,実行速度の5次元的アプローチによって設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、主観的な人間の評価や二進的成功の指標に依存する従来のベンチマークとは異なり、ソフトウェア工学、数学的推論、一般的な問題解決を含む複数のタスク領域にわたる客観的な定量化手法を採用している。
商用およびオープンソース LLM をリードする評価では,精度,効率,速度のトレードオフが顕著な特徴的機能プロファイルが示され,従来のシングルメトリック性能ランキングに挑戦する。
さらに、最大限のモデル互換性と有効性のために、開発者がツールを最適化するための貴重なガイダンスも提供します。
標準化されたアプローチのため、MPPに重点を置いているが、我々の方法論は全てのLLMエージェントツール統合フレームワークに適用可能であり、LLM開発者とツール作成者の両方がLLM-toolインタラクションエコシステム全体を最適化するための貴重な洞察を提供する。
評価で使用される実装、設定、データセットはhttps://anonymous.4open.science/r/MCPRadar-B143で公開されている。
関連論文リスト
- TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models [0.0]
大規模言語モデル(LLM)を定量的に評価するベンチマークであるTMIQ(Test and Measurement Intelligence Quotient)を導入する。
TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)など、詳細な評価のための包括的なシナリオとメトリクスを提供する。
各種LSMの試験では, SCPIコマンドマッチング精度は56%から73%, 一致した第1位スコアは約33%であった。
論文 参考訳(メタデータ) (2025-03-03T23:12:49Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。
イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。