論文の概要: Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications
- arxiv url: http://arxiv.org/abs/2606.04769v1
- Date: Wed, 03 Jun 2026 11:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.720948
- Title: Description-Code Inconsistency in Real-world MCP Servers: Measurement, Detection, and Security Implications
- Title(参考訳): 実世界のMSPサーバにおける記述符号の不整合性:測定・検出・セキュリティへの影響
- Authors: Yutao Shi, Xiaohan Zhang, Xiangjing Zhang, Xihua Shen, Hui Ouyang, Huming Qiu, Mi Zhang, Min Yang,
- Abstract要約: 本稿では,実世界のMPPサーバにおけるDCI(Description-Code Inconsistency)の総合的研究について述べる。
機能不整合と非宣言副作用にまたがる包括的分類法を提案する。
この分類法を,2,214の実世界MPPサーバから抽出した19,200の記述符号対からなる大規模データセットに適用した。
- 参考スコア(独自算出の注目度): 15.815506064408074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Model Context Protocol (MCP) has emerged as a critical standard empowering Large Language Models (LLMs) to utilize external tools. In this ecosystem, LLMs rely on natural language descriptions provided by MCP servers to select and execute functions. This interaction implicitly assumes that tool descriptions faithfully reflect their underlying implementations, while this assumption is not mandatorily verified in practice. As a result, MCP deployments may suffer from a problem named Description-Code Inconsistency (DCI), where a tool's description of its capabilities and security boundaries is not consistent with what the code actually does. In this paper, we present a comprehensive study of DCI in real-world MCP servers. We formally define the problem and propose a comprehensive taxonomy spanning functionality inconsistencies and undeclared side effects. Guided by this taxonomy, we develop DCIChecker, an automated framework that combines structure-aware static analysis with the Direct-Reverse-Arbitration prompting method to cross-validate tool descriptions against actual code implementations. We apply this framework to a large-scale dataset comprising 19,200 description-code pairs extracted from 2,214 real-world MCP servers. Our measurement reveals that DCI is widespread, with 9.93% of these pairs exhibiting inconsistencies. We further demonstrate that DCI creates a critical defense blind spot, facilitating varied risks from operational failures to stealthy malicious behaviors. Finally, we propose mitigation strategies to enforce semantic consistency and enhance the reliability of the emerging agentic ecosystem.
- Abstract(参考訳): Model Context Protocol (MCP) は、LLM(Large Language Models)が外部ツールを利用するための重要な標準として登場した。
このエコシステムでは、LCMは関数の選択と実行のためにMSPサーバが提供する自然言語記述に依存している。
この相互作用は、ツール記述が彼らの基盤となる実装を忠実に反映していると暗黙的に仮定するが、この仮定は実際はマンダトリー的に検証されていない。
その結果、MPPデプロイメントはDescription-Code Inconsistency (DCI)と呼ばれる問題に悩まされる可能性がある。
本稿では,実世界のMSPサーバにおけるDCIの総合的研究について述べる。
我々は,この問題を正式に定義し,機能不整合と非宣言的副作用にまたがる包括的分類法を提案する。
この分類法で導かれたDCICheckerは,構造を意識した静的解析と,実際のコード実装に対してツール記述を相互検証するDirect-Reverse-Arbitration promptingメソッドを組み合わせた自動フレームワークである。
本研究では,2,214の実世界のMPPサーバから抽出した19,200の記述コードペアからなる大規模データセットに適用する。
我々の測定では、DCIは広く、これらのペアの9.93%が矛盾を示しています。
さらに我々は、DCIが重要な防御盲点を生み出し、運用上の失敗から悪意ある行動へのさまざまなリスクを助長することを示した。
最後に、セマンティック一貫性を強制し、出現するエージェントエコシステムの信頼性を高めるための緩和戦略を提案する。
関連論文リスト
- When the Manual Lies: A Realistic Benchmark to Evaluate MCP Poisoning Attacks for LLM Agents [43.702131498259384]
本稿では,新しいセマンティックアタックであるTDP(Tool Description Poisoning)を体系的に検討する。
TDPでは、悪意のある命令はツールの実行可能なコードに埋め込まれず、記述的なメタデータに隠蔽的に注入される。
この研究は、TDP用に調整された最初の特別なセキュリティベンチマークを提供し、高度なエージェントシステムの認知層と計画層の確保に不可欠な洞察を提供する。
論文 参考訳(メタデータ) (2026-05-22T08:34:48Z) - VIPER-MCP: Detecting and Exploiting Taint-Style Vulnerabilities in Model Context Protocol Servers [6.420136372317537]
VIPER-MCPは、MPPサーバ向けの最初のエンドツーエンドの自動脆弱性監査フレームワークである。
テナントスタイルの脆弱性を検出し、具体的な概念実証プロンプトを生成することで、その悪用性を確認する。
VIPER-MCPは39,884のオープンソースのCPサーバーリポジトリを大規模にスキャンし、106の0日間の脆弱性を発見した。
論文 参考訳(メタデータ) (2026-05-20T16:46:51Z) - Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - STRIATUM-CTF: A Protocol-Driven Agentic Framework for General-Purpose CTF Solving [1.266832699428407]
モデルコンテキストプロトコル(MCP)上に構築されたモジュール型エージェントフレームワークであるSTRIATUM-CTF(サーチベーステストタイム推論推論エージェント、サイバーセキュリティにおける戦術的ユーティリティ最大化)を紹介する。
システムのイントロスペクション、デコンパイル、実行時のデバッグのためのツールインターフェースを標準化することで、STRIATUM-CTFはエージェントが拡張されたエクスプロイトトラジェクトリ間でコヒーレントなコンテキストウィンドウを維持することができる。
当社のシステムは2025年後半に開催された大学主催のCapture-the-Flag(CTF)コンペに参加し、リアルタイムで脆弱性を特定して悪用するために自律的に運用しました。
論文 参考訳(メタデータ) (2026-03-23T21:17:26Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - From Docs to Descriptions: Smell-Aware Evaluation of MCP Server Descriptions [15.082788201596422]
MCPツール記述における記述の臭いに関する最初の体系的研究とそのユーザビリティへの影響について述べる。
記述の臭いは広範に広まり、"コードファースト、記述-ラスト"パターンを反映しています。
機能的に等価なサーバとの競合設定では、標準に準拠した記述は72%の選択確率に達する。
論文 参考訳(メタデータ) (2026-02-21T17:45:07Z) - Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions [20.772501129444993]
本研究では,外部から提示されたツール記述と実装のミスマッチが,知的エージェントの精神モデルと意思決定行動をどのように形成するかを検討する。
その結果、ほとんどのサーバは高度に一貫性があるが、約13%のサーバは、文書化されていない特権操作、隠された状態の突然変異、または不正な金融行動を可能にする相当なミスマッチを示すことがわかった。
以上の結果から,記述符号の不整合性はMPPベースのAIエージェントにおいて具体的かつ一般的な攻撃面であり,今後のエージェントエコシステムにおいて,体系的な監査とより強力な透明性の保証の必要性が示唆された。
論文 参考訳(メタデータ) (2026-02-03T14:31:52Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning [81.97788535387286]
本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。
最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。
FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
論文 参考訳(メタデータ) (2026-01-19T20:33:53Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。