論文の概要: Help or Hurdle? Rethinking Model Context Protocol-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2508.12566v1
- Date: Mon, 18 Aug 2025 02:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.939195
- Title: Help or Hurdle? Rethinking Model Context Protocol-Augmented Large Language Models
- Title(参考訳): ヘルプかハードルか? 拡張された大規模言語モデルによるモデルコンテキストプロトコルの再考
- Authors: Wei Song, Haonan Zhong, Ziqi Ding, Jingling Xue, Yuekang Li,
- Abstract要約: LLM-MCP相互作用を探索する最初の総合的評価フレームワークであるMPPGAUGEを紹介する。
MCPGAUGEは160プロンプトスイートと、知識理解、一般的な推論、コード生成にまたがる25のデータセットで構成されている。
当社の大規模評価では、6つの商用LCM、30のMPPツールスイート、および1ターンと2ターンの両方のインタラクション設定を対象とし、約20,000のAPIコールと6,000ドル以上の計算コストで構成されています。
- 参考スコア(独自算出の注目度): 9.49963945880421
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The Model Context Protocol (MCP) enables large language models (LLMs) to access external resources on demand. While commonly assumed to enhance performance, how LLMs actually leverage this capability remains poorly understood. We introduce MCPGAUGE, the first comprehensive evaluation framework for probing LLM-MCP interactions along four key dimensions: proactivity (self-initiated tool use), compliance (adherence to tool-use instructions), effectiveness (task performance post-integration), and overhead (computational cost incurred). MCPGAUGE comprises a 160-prompt suite and 25 datasets spanning knowledge comprehension, general reasoning, and code generation. Our large-scale evaluation, spanning six commercial LLMs, 30 MCP tool suites, and both one- and two-turn interaction settings, comprises around 20,000 API calls and over USD 6,000 in computational cost. This comprehensive study reveals four key findings that challenge prevailing assumptions about the effectiveness of MCP integration. These insights highlight critical limitations in current AI-tool integration and position MCPGAUGE as a principled benchmark for advancing controllable, tool-augmented LLMs.
- Abstract(参考訳): Model Context Protocol (MCP) は、大きな言語モデル(LLM)が必要に応じて外部リソースにアクセスすることを可能にする。
一般的には性能の向上を前提としているが、LLMが実際にこの能力を利用する方法はまだよく理解されていない。
MCPGAUGEは,PLM-MCPインタラクションを,プロアクティビティ(自己開始型ツール使用),コンプライアンス(ツール使用指示の順守),有効性(タスク実行後統合),オーバーヘッド(計算コストの増大)の4つの重要な側面に沿って探索する最初の総合的な評価フレームワークである。
MCPGAUGEは160プロンプトスイートと、知識理解、一般的な推論、コード生成にまたがる25のデータセットで構成されている。
当社の大規模評価では、6つの商用LCM、30のMPPツールスイート、および1ターンと2ターンの両方のインタラクション設定を対象とし、約20,000のAPIコールと6,000ドル以上の計算コストで構成されています。
本研究は,MCP統合の有効性を前提とした4つの重要な知見を明らかにする。
これらの洞察は、現在のAIツール統合における重要な制限と、制御可能なツール拡張 LLM を進化させるための標準ベンチマークとして、MPPGAUGEの位置を浮き彫りにしている。
関連論文リスト
- Integrating External Tools with Large Language Models to Improve Accuracy [0.0]
関連した文脈情報がないと、大きな言語モデル(LLM)は質の悪い応答を提供するか、幻覚を起こす傾向があることはよく知られている。
いくつかのイニシアチブは、LCMを外部ツールに統合して、正確性を改善するために最新のデータを提供することを提案している。
本稿では,学習環境における問合せに対するLLMの能力を高めるために,外部ツールを統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T04:09:59Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Ontology Matching with Large Language Models and Prioritized Depth-First Search [0.2454454561635539]
優先的な深度優先探索 (PDFS) 戦略に, 検索・識別・分岐パイプラインを組み込む新しいアプローチであるMILAを導入する。
このアプローチは、高い精度で多数の意味的対応を効果的に識別し、LLM要求を最も境界的なケースに限定する。
提案手法は,5つの教師なしタスクのうち4つのタスクのうち,最も高いF-Measureを実現し,最先端OMシステムよりも最大17%向上した。
論文 参考訳(メタデータ) (2025-01-20T12:29:09Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。