論文の概要: A Taxonomy of Runtime Faults in Model Context Protocol Servers
- arxiv url: http://arxiv.org/abs/2606.05339v1
- Date: Wed, 03 Jun 2026 18:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.34212
- Title: A Taxonomy of Runtime Faults in Model Context Protocol Servers
- Title(参考訳): モデルコンテキストプロトコルサーバにおける実行時障害の分類
- Authors: Joshua Owotogbe, Indika Kumara, Willem-Jan van den Heuvel, Damian Andrew Tamburri, Antonio Ken Iannillo, Roberto Natella,
- Abstract要約: MCPサーバにおける実行時障害の最初の経験的分類を提示する。
MCP 固有の実行時障害スレッド 837 を MCP サーバ GitHub リポジトリ 473 から解析した。
分類学の外部妥当性を評価するため,55名のMDPサーバ開発者を調査した。
- 参考スコア(独自算出の注目度): 3.282178252052344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MCP (Model Context Protocol) enables LLMs (Large Language Models) to interact with external tools and data sources via a standardized protocol. Its rapid adoption in tool-augmented Artificial Intelligence (AI) workflows has introduced new reliability challenges, such as configuration parameters that are accepted but not enforced at runtime, leading to unintended default behavior, whose runtime fault characteristics remain empirically unexamined. We present the first empirical taxonomy of runtime faults in MCP servers. We manually analyzed 837 MCP-specific runtime fault threads from 473 actively maintained MCP server GitHub repositories and derived a taxonomy using a bottom-up open coding procedure. The taxonomy comprises 11 top-level categories and 27 subcategories (73 leaf fault types), covering recurrent failures across protocol interactions, tool invocations, schema enforcement, state management, model-provider integration, security validation, and timeouts or explicit cancellations of in-progress operations. To assess the taxonomy's external validity, we surveyed 55 MCP server developers. Respondents reported experiencing an average of 20 of the 27 fault subcategories, and no category remained unobserved. These results indicate that the taxonomy reflects widely observed runtime failures in MCP-based systems and shall assist AI software maintenance and evolution in the future.
- Abstract(参考訳): MCP(Model Context Protocol)は、LLM(Large Language Models)が標準化されたプロトコルを介して外部のツールやデータソースと対話できるようにする。
ツール拡張人工知能(AI)ワークフローへの急速な採用により、実行時に受け入れられるが強制されない設定パラメータなど、新たな信頼性上の課題が導入された。
MCPサーバにおける実行時障害の最初の経験的分類を提示する。
837のMPP固有のランタイム障害スレッドを、473のアクティブメンテナンスMSPサーバGitHubリポジトリから手動で解析し、ボトムアップのオープンコーディング手順を用いて分類を導出した。
分類は、11のトップレベルカテゴリと27のサブカテゴリ(73のリーフフォールトタイプ)で構成され、プロトコルインタラクション、ツール呼び出し、スキーマの実行、状態管理、モデルプロデューサの統合、セキュリティ検証、タイムアウト、あるいはプログレッシブ操作の明示的なキャンセルを含む。
分類学の外部妥当性を評価するため,55名のMDPサーバ開発者を調査した。
27の断層区分のうち平均20のカテゴリーを経験していると回答した。
これらの結果は,MPPベースのシステムにおいて広く観察されているランタイム障害を反映し,将来的にはAIソフトウェアのメンテナンスと進化を支援することを示唆している。
関連論文リスト
- Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications [15.815506064408074]
本稿では,実世界のMPPサーバにおけるDCI(Description-Code Inconsistency)の総合的研究について述べる。
機能不整合と非宣言副作用にまたがる包括的分類法を提案する。
この分類法を,2,214の実世界MPPサーバから抽出した19,200の記述符号対からなる大規模データセットに適用した。
論文 参考訳(メタデータ) (2026-06-03T11:51:32Z) - Unsafe by Flow: Uncovering Bidirectional Data-Flow Risks in MCP Ecosystem [8.214897650566494]
モデルコンテキストプロトコル(MCP)は、LCMエージェントと外部ツールのインターフェース層として急速に成長しています。
要求制御された引数は機密操作に伝播しうるが、信頼できない外部または機密な内部データが表面化する。
MCP-BiFlowは,MPP対応のエントリポイントリカバリ,プロトコル固有のテナントモデリング,および相互の伝搬解析を中心に構築された静的解析フレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:03:51Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - From Docs to Descriptions: Smell-Aware Evaluation of MCP Server Descriptions [15.082788201596422]
MCPツール記述における記述の臭いに関する最初の体系的研究とそのユーザビリティへの影響について述べる。
記述の臭いは広範に広まり、"コードファースト、記述-ラスト"パターンを反映しています。
機能的に等価なサーバとの競合設定では、標準に準拠した記述は72%の選択確率に達する。
論文 参考訳(メタデータ) (2026-02-21T17:45:07Z) - Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions [20.772501129444993]
本研究では,外部から提示されたツール記述と実装のミスマッチが,知的エージェントの精神モデルと意思決定行動をどのように形成するかを検討する。
その結果、ほとんどのサーバは高度に一貫性があるが、約13%のサーバは、文書化されていない特権操作、隠された状態の突然変異、または不正な金融行動を可能にする相当なミスマッチを示すことがわかった。
以上の結果から,記述符号の不整合性はMPPベースのAIエージェントにおいて具体的かつ一般的な攻撃面であり,今後のエージェントエコシステムにおいて,体系的な監査とより強力な透明性の保証の必要性が示唆された。
論文 参考訳(メタデータ) (2026-02-03T14:31:52Z) - MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - MCP-Flow: Facilitating LLM Agents to Master Real-World, Diverse and Scaling MCP Tools [58.5971352939562]
大規模言語モデルは、複雑で現実的なタスクを実行するために、ますます外部ツールに依存しています。
既存のMSPリサーチは、少数のサーバーをカバーし、コストのかかる手作業によるキュレーションに依存し、トレーニングサポートが欠如している。
我々は大規模なサーバ発見、データ合成、モデルトレーニングのための自動Webエージェント駆動パイプラインであるMPP-Flowを紹介した。
論文 参考訳(メタデータ) (2025-10-28T10:42:17Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。