論文の概要: Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions
- arxiv url: http://arxiv.org/abs/2602.14878v1
- Date: Mon, 16 Feb 2026 16:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.534249
- Title: Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions
- Title(参考訳): Model Context Protocol (MCP) Tool Descriptions are Smelly! - 拡張MCPツール記述によるAIエージェントの効率向上を目指す
- Authors: Mohammed Mehedi Hasan, Hao Li, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan,
- Abstract要約: 103のMPPサーバにまたがる856のツールに関する大規模な実証的研究を行い、その記述品質とエージェントのパフォーマンスへの影響を評価した。
分析したツール記述の97.1%には少なくとも1つの匂いが含まれており、56%は目的を明確に述べていない。
これらの結果は,エージェントのパフォーマンスとコストのトレードオフと,パフォーマンス向上のコンテキストを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 12.206378714907075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Model Context Protocol (MCP) standardizes how Foundation Model (FM)-based agents interact with external systems by invoking tools. However, to understand a tool's purpose and features, FMs rely on natural-language tool descriptions, making these descriptions a critical component in guiding FMs to select the optimal tool for a given (sub)task and to pass the right arguments to the tool. While defects or smells in these descriptions can misguide FM-based agents, their prevalence and consequences in the MCP ecosystem remain unclear. To address this, we conduct the first large-scale empirical study of 856 tools spread across 103 MCP servers, assessing their description quality and their impact on agent performance. We identify six components of tool descriptions from the literature, develop a scoring rubric utilizing these components, then formalize tool description smells based on this rubric. By operationalizing this rubric through an FM-based scanner, we find that 97.1% of the analyzed tool descriptions contain at least one smell, with 56% failing to state their purpose clearly. While augmenting these descriptions for all components improves task success rates by a median of 5.85 percentage points and improves partial goal completion by 15.12%, it also increases the number of execution steps by 67.46% and regresses performance in 16.67% of cases. These findings highlight a trade-off between agent performance and cost, as well as the context sensitivity of the performance gain. Furthermore, component ablations show that compact variants of different component combinations often preserve behavioral reliability while reducing unnecessary token overhead, enabling more efficient use of the FM context window and lower execution costs.
- Abstract(参考訳): Model Context Protocol (MCP) は、Foundation Model (FM) ベースのエージェントが外部システムと対話するためのツールを標準化する。
しかし、ツールの目的や特徴を理解するために、FMは自然言語ツール記述に依存しており、これらの記述は、与えられた(サブ)タスクに対して最適なツールを選択し、適切な引数をツールに渡すために、FMを導く上で重要な要素となっている。
これらの記述の欠陥や匂いはFMベースのエージェントを誤認する可能性があるが、MCPエコシステムにおけるその頻度や結果はまだ不明である。
そこで本研究では,103のMPPサーバにまたがる856ツールの大規模実験を行い,その記述品質とエージェント性能への影響を評価した。
文献からツール記述の6つのコンポーネントを特定し,これらのコンポーネントを利用したスコアリングルーリックを開発し,このルーリックに基づいてツール記述の匂いを定式化する。
このルーリックをFMベースのスキャナーで操作することにより、分析されたツール記述の97.1%に少なくとも1つの匂いが含まれており、56%が目的を明確に述べていないことがわかった。
これらすべてのコンポーネントについて記述を増強することで、タスク成功率を5.85ポイント改善し、部分ゴール完了率を15.12%向上させる一方で、実行手順を67.46%向上させ、16.67%のケースでパフォーマンスを低下させる。
これらの結果は,エージェントの性能とコストのトレードオフと,パフォーマンス向上の文脈感受性を浮き彫りにしている。
さらに、異なるコンポーネントの組み合わせのコンパクトなバリエーションは、不要なトークンオーバーヘッドを低減しつつ、振る舞いの信頼性を保ち、FMコンテキストウィンドウをより効率的に使用し、実行コストを削減できることを示している。
関連論文リスト
- MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - GRETEL: A Goal-driven Retrieval and Execution-based Trial Framework for LLM Tool Selection Enhancing [6.790345342526922]
GRETELは、サンドボックス化された計画実行評価サイクルを通じてセマンティックに検索された候補を処理するエージェントワークフローを実装している。
ToolBenchベンチマークに関する包括的な評価は、すべてのメトリクスで大幅に改善されていることを示しています。
論文 参考訳(メタデータ) (2025-10-10T00:12:51Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。