Fugu-MT 論文翻訳(概要): From Docs to Descriptions: Smell-Aware Evaluation of MCP Server Descriptions

論文の概要: From Docs to Descriptions: Smell-Aware Evaluation of MCP Server Descriptions

arxiv url: http://arxiv.org/abs/2602.18914v1
Date: Sat, 21 Feb 2026 17:45:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.393189
Title: From Docs to Descriptions: Smell-Aware Evaluation of MCP Server Descriptions
Title（参考訳）: ドキュメントから説明へ:MPPサーバ記述のスモールアウェア評価
Authors: Peiran Wang, Ying Li, Yuqiang Sun, Chengwei Liu, Yang Liu, Yuan Tian,
Abstract要約: MCPツール記述における記述の臭いに関する最初の体系的研究とそのユーザビリティへの影響について述べる。記述の臭いは広範に広まり、"コードファースト、記述-ラスト"パターンを反映しています。機能的に等価なサーバとの競合設定では、標準に準拠した記述は72%の選択確率に達する。
参考スコア（独自算出の注目度）: 15.082788201596422
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Model Context Protocol (MCP) has rapidly become a de facto standard for connecting LLM-based agents with external tools via reusable MCP servers. In practice, however, server selection and onboarding rely heavily on free-text tool descriptions that are intentionally loosely constrained. Although this flexibility largely ensures the scalability of MCP servers, it also creates a reliability gap that descriptions often misrepresent or omit key semantics, increasing trial-and-error integration, degrading agent behavior, and potentially introducing security risks. To this end, we present the first systematic study of description smells in MCP tool descriptions and their impact on usability. Specifically, we synthesize software/API documentation practices and agentic tool-use requirements into a four-dimensional quality standard: accuracy, functionality, information completeness, and conciseness, covering 18 specific smell categories. Using this standard, we conducted a large-scale empirical study on a well-constructed dataset of 10,831 MCP servers. We find that description smells are pervasive (e.g., 73% repeated tool names, thousands with incorrect parameter semantics or missing return descriptions), reflecting a "code-first, description-last" pattern. Through a controlled mutation-based study, we show these smells significantly affect LLM tool selection, with functionality and accuracy having the largest effects (+11.6% and +8.8%, p < 0.001). In competitive settings with functionally equivalent servers, standard-compliant descriptions reach 72% selection probability (260% over a 20% baseline), demonstrating that smell-guided remediation yields substantial practical benefits. We release our labeled dataset and standards to support future work on reliable and secure MCP ecosystems.
Abstract（参考訳）: Model Context Protocol (MCP) は、LCMベースのエージェントを再利用可能なMSPサーバを介して外部ツールと接続するためのデファクトスタンダードとなっている。しかし実際には、サーバの選択とオンボーディングは故意に制約された自由テキストのツール記述に大きく依存している。この柔軟性はMPPサーバのスケーラビリティを大きく保証しますが、説明がキーセマンティクスを誤って表現したり省略したりすることや、試行錯誤の統合の増加、エージェントの振る舞いの低下、セキュリティリスクの潜在的導入といった信頼性のギャップも生じます。そこで本研究では,MPPツール記述における記述の臭いに関する最初の体系的研究とそのユーザビリティへの影響について述べる。具体的には、ソフトウェア/APIドキュメンテーションのプラクティスとエージェントツールの使用要件を、精度、機能性、情報完全性、簡潔さの4次元品質標準に合成し、18種類の特定臭いカテゴリーをカバーする。この標準を用いて,10,831のMPPサーバからなるよく構築されたデータセットについて,大規模な実験を行った。説明の臭いは広範(例:73%の繰り返しツール名、不正確なパラメータセマンティクスやリターン記述の欠如など)であり、"コードファースト、記述-ラスト"パターンを反映している。制御された突然変異に基づく研究により、これらの匂いはLLMツールの選択に大きく影響し、最大の効果(+11.6%、+8.8%、p < 0.001)を持つ機能と精度を持つことが示された。機能的に等価なサーバと競合する環境では、標準に準拠した記述は72%の選択確率(20%ベースラインよりも260%)に達し、嗅覚による修復が実質的な利益をもたらすことを示した。ラベル付きデータセットと標準をリリースし、信頼性とセキュアなMPPエコシステムにおける今後の作業を支援します。

関連論文リスト

Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions [12.206378714907075]
103のMPPサーバにまたがる856のツールを実験的に検証し,その記述品質とエージェント性能への影響について検討した。文献からツール記述の6つのコンポーネントを特定し,これらのコンポーネントを利用したスコアリングルーリックを開発し,このルーリックに基づいてツール記述の匂いを定式化する。分析したツール記述の97.1%には少なくとも1つの匂いが含まれており、56%は目的を明確に述べていない。
論文参考訳（メタデータ） (2026-02-16T16:10:11Z)
Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions [20.772501129444993]
本研究では,外部から提示されたツール記述と実装のミスマッチが,知的エージェントの精神モデルと意思決定行動をどのように形成するかを検討する。その結果、ほとんどのサーバは高度に一貫性があるが、約13%のサーバは、文書化されていない特権操作、隠された状態の突然変異、または不正な金融行動を可能にする相当なミスマッチを示すことがわかった。以上の結果から,記述符号の不整合性はMPPベースのAIエージェントにおいて具体的かつ一般的な攻撃面であり,今後のエージェントエコシステムにおいて,体系的な監査とより強力な透明性の保証の必要性が示唆された。
論文参考訳（メタデータ） (2026-02-03T14:31:52Z)
MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文参考訳（メタデータ） (2026-01-31T23:19:39Z)
MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文参考訳（メタデータ） (2025-12-31T02:09:48Z)
MCP-RiskCue: Can LLM Infer Risk Information From MCP Server System Logs? [3.4468299705073133]
システムログからセキュリティリスクを識別する大規模言語モデルの能力を評価するための,最初の総合ベンチマークを示す。 MCPサーバのリスクの9つのカテゴリを定義し,10の最先端LCMを用いて1,800の合成システムログを生成する。実験では、小さなモデルではリスクの高いシステムログの検出に失敗することが多く、偽陽性につながることが判明した。
論文参考訳（メタデータ） (2025-11-08T05:52:53Z)
InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents [60.89180545430896]
InfoMosaic-Benchは、ツール拡張されたエージェントを探すマルチソース情報に特化した最初のベンチマークである。汎用検索とドメイン固有のツールを組み合わせるにはエージェントが必要である。この設計は信頼性と非自明性の両方を保証する。
論文参考訳（メタデータ） (2025-10-02T17:48:03Z)
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。 GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文参考訳（メタデータ） (2025-08-20T13:28:58Z)
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。 LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文参考訳（メタデータ） (2025-08-03T14:36:42Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文参考訳（メタデータ） (2024-10-15T20:32:07Z)
FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文参考訳（メタデータ） (2024-06-17T06:14:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。