論文の概要: Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions
- arxiv url: http://arxiv.org/abs/2602.03580v1
- Date: Tue, 03 Feb 2026 14:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.509848
- Title: Don't believe everything you read: Understanding and Measuring MCP Behavior under Misleading Tool Descriptions
- Title(参考訳): 誤解を招くツール記述に基づくMPP行動の理解と測定
- Authors: Zhihao Li, Boyang Ma, Xuelong Dai, Minghui Xu, Yue Zhang, Biwei Yan, Kun Li,
- Abstract要約: 本研究では,外部から提示されたツール記述と実装のミスマッチが,知的エージェントの精神モデルと意思決定行動をどのように形成するかを検討する。
その結果、ほとんどのサーバは高度に一貫性があるが、約13%のサーバは、文書化されていない特権操作、隠された状態の突然変異、または不正な金融行動を可能にする相当なミスマッチを示すことがわかった。
以上の結果から,記述符号の不整合性はMPPベースのAIエージェントにおいて具体的かつ一般的な攻撃面であり,今後のエージェントエコシステムにおいて,体系的な監査とより強力な透明性の保証の必要性が示唆された。
- 参考スコア(独自算出の注目度): 20.772501129444993
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Model Context Protocol (MCP) enables large language models to invoke external tools through natural-language descriptions, forming the foundation of many AI agent applications. However, MCP does not enforce consistency between documented tool behavior and actual code execution, even though MCP Servers often run with broad system privileges. This gap introduces a largely unexplored security risk. We study how mismatches between externally presented tool descriptions and underlying implementations systematically shape the mental models and decision-making behavior of intelligent agents. Specifically, we present the first large-scale study of description-code inconsistency in the MCP ecosystem. We design an automated static analysis framework and apply it to 10,240 real-world MCP Servers across 36 categories. Our results show that while most servers are highly consistent, approximately 13% exhibit substantial mismatches that can enable undocumented privileged operations, hidden state mutations, or unauthorized financial actions. We further observe systematic differences across application categories, popularity levels, and MCP marketplaces. Our findings demonstrate that description-code inconsistency is a concrete and prevalent attack surface in MCP-based AI agents, and motivate the need for systematic auditing and stronger transparency guarantees in future agent ecosystems.
- Abstract(参考訳): Model Context Protocol(MCP)は、多くのAIエージェントアプリケーションの基盤となる自然言語記述を通じて、大きな言語モデルが外部ツールを呼び出すことを可能にする。
しかし、MSPは文書化されたツールの動作と実際のコード実行の一貫性を強制していない。
このギャップは、ほとんど探索されていないセキュリティリスクをもたらします。
本研究では、外部から提示されたツール記述と基礎となる実装のミスマッチが、知的エージェントの精神モデルと意思決定行動を体系的に形成する方法について検討する。
具体的には,MCPエコシステムにおける記述符号の不整合に関する大規模な研究について述べる。
我々は、自動静的解析フレームワークを設計し、36のカテゴリにわたる10,240の現実世界のMPPサーバに適用する。
その結果、ほとんどのサーバは高度に一貫性があるが、約13%のサーバは、文書化されていない特権操作、隠された状態の突然変異、または不正な金融行動を可能にする相当なミスマッチを示すことがわかった。
さらに、アプリケーションカテゴリ、人気レベル、MSPマーケットプレース間の系統的な差異を観察する。
以上の結果から,記述符号の不整合性はMPPベースのAIエージェントにおいて具体的かつ一般的な攻撃面であり,今後のエージェントエコシステムにおいて,体系的な監査とより強力な透明性の保証の必要性が示唆された。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers [17.96465932881902]
我々は,実際のMPPサーバ上に構築された総合ベンチマークであるMPP-SafetyBenchを紹介する。
サーバ、ホスト、ユーザサイドにまたがる20のMPP攻撃タイプを統一した分類を組み込んでいる。
MCP-SafetyBench を用いて、主要なオープンソース LLM とクローズドソース LLM を体系的に評価する。
論文 参考訳(メタデータ) (2025-12-17T08:00:32Z) - MCPGuard : Automatically Detecting Vulnerabilities in MCP Servers [16.620755774987774]
Model Context Protocol(MCP)は、LLM(Large Language Models)と外部データソースとツールのシームレスな統合を可能にする標準化されたインターフェースとして登場した。
本稿では,3つの主要な脅威カテゴリを識別し,MCPベースのシステムのセキュリティ状況を体系的に解析する。
論文 参考訳(メタデータ) (2025-10-27T05:12:51Z) - Mind Your Server: A Systematic Study of Parasitic Toolchain Attacks on the MCP Ecosystem [13.95558554298296]
大規模言語モデル(LLM)は、モデルコンテキストプロトコル(MCP)を通じて、外部システムとますます統合される。
本稿では,MCP Unintended Privacy Disclosure (MCP-UPD) としてインスタンス化された新たな攻撃方法であるParasitic Toolchain Attacksを明らかにする。
悪意のあるロジックはツールチェーンに侵入し,寄生的取り込み,プライバシコレクション,プライバシ開示という3つのフェーズで展開する。
論文 参考訳(メタデータ) (2025-09-08T11:35:32Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - We Urgently Need Privilege Management in MCP: A Measurement of API Usage in MCP Ecosystems [28.59170303701817]
モデルコンテキストプロトコルのセキュリティリスクに関する大規模な実証分析を行った。
我々は23の機能カテゴリにまたがる2,562の実世界のMPPアプリケーションについて検討した。
MCP リソースアクセスの詳細な分類法を提案し,セキュリティ関連 API の利用状況を定量化し,より安全な MCP エコシステムを構築する上でのオープンな課題を明らかにする。
論文 参考訳(メタデータ) (2025-07-05T03:39:30Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。