論文の概要: MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers
- arxiv url: http://arxiv.org/abs/2508.14925v1
- Date: Tue, 19 Aug 2025 10:12:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.02422
- Title: MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers
- Title(参考訳): MCPTox: 実世界のMCPサーバに対するツール攻撃のベンチマーク
- Authors: Zhiqiang Wang, Yichao Gao, Yanting Wang, Suyuan Liu, Haifeng Sun, Haoran Cheng, Guanquan Shi, Haohua Du, Xiangyang Li,
- Abstract要約: MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を評価する最初のベンチマークである。
MCPToxは、数ショットの学習によって1312の悪意のあるテストケースの包括的なスイートを生成し、潜在的なリスクの10のカテゴリをカバーする。
評価の結果,o1-miniで72.8%の攻撃成功率を達成したツールポイジングの脆弱性が広く報告されている。
- 参考スコア(独自算出の注目度): 12.669529656631937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By providing a standardized interface for LLM agents to interact with external tools, the Model Context Protocol (MCP) is quickly becoming a cornerstone of the modern autonomous agent ecosystem. However, it creates novel attack surfaces due to untrusted external tools. While prior work has focused on attacks injected through external tool outputs, we investigate a more fundamental vulnerability: Tool Poisoning, where malicious instructions are embedded within a tool's metadata without execution. To date, this threat has been primarily demonstrated through isolated cases, lacking a systematic, large-scale evaluation. We introduce MCPTox, the first benchmark to systematically evaluate agent robustness against Tool Poisoning in realistic MCP settings. MCPTox is constructed upon 45 live, real-world MCP servers and 353 authentic tools. To achieve this, we design three distinct attack templates to generate a comprehensive suite of 1312 malicious test cases by few-shot learning, covering 10 categories of potential risks. Our evaluation on 20 prominent LLM agents setting reveals a widespread vulnerability to Tool Poisoning, with o1-mini, achieving an attack success rate of 72.8\%. We find that more capable models are often more susceptible, as the attack exploits their superior instruction-following abilities. Finally, the failure case analysis reveals that agents rarely refuse these attacks, with the highest refused rate (Claude-3.7-Sonnet) less than 3\%, demonstrating that existing safety alignment is ineffective against malicious actions that use legitimate tools for unauthorized operation. Our findings create a crucial empirical baseline for understanding and mitigating this widespread threat, and we release MCPTox for the development of verifiably safer AI agents. Our dataset is available at an anonymized repository: \textit{https://anonymous.4open.science/r/AAAI26-7C02}.
- Abstract(参考訳): LLMエージェントが外部ツールと対話するための標準化されたインターフェースを提供することによって、モデルコンテキストプロトコル(MCP)は、急速に現代の自律エージェントエコシステムの基盤になりつつある。
しかし、信頼できない外部ツールにより、新たな攻撃面を生成する。
以前の作業では、外部ツール出力を通じて注入された攻撃に重点を置いているが、より根本的な脆弱性を調査している。
これまでのところ、この脅威は主に孤立したケースを通じて実証されており、体系的かつ大規模な評価を欠いている。
MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を体系的に評価する最初のベンチマークである。
MCPToxは45の実環境のMPPサーバと353の認証ツール上に構築されている。
これを実現するために、3つの異なるアタックテンプレートを設計し、潜在的なリスクの10のカテゴリをカバーする、1312の悪意のあるテストケースの包括的なスイートを数ショットの学習で生成する。
LLMエージェント設定20件について評価したところ,攻撃成功率72.8\%となるo1-miniのツール・ポジショニングの脆弱性が広範囲にあることが明らかとなった。
攻撃が優れた命令追従能力を利用するので、より有能なモデルの方がより感受性が高いことが分かっています。
最後に、障害事例分析により、エージェントはこれらの攻撃を滅多に拒否せず、最大拒否率(Claude-3.7-Sonnet)が3倍未満であり、既存の安全アライメントが不正な操作に合法的なツールを使用する悪意のある行為に対して効果がないことを示した。
我々の発見は、この広範囲にわたる脅威を理解し緩和するための重要な経験的ベースラインを作成し、より安全なAIエージェントの開発のためのMCPToxをリリースする。
我々のデータセットは匿名リポジトリで利用できる。 \textit{https://anonymous.4open.science/r/AAAI26-7C02}。
関連論文リスト
- Systematic Analysis of MCP Security [13.801464032236481]
Model Context Protocol(MCP)は、AIエージェントが外部ツールとシームレスに接続できるようにする普遍的な標準として登場した。
MCPはツール・ポジティング・アタック(TPA)のような重大な脆弱性を導入している。
MCPアタックライブラリ (MCPLIB) は, 4つの主要な分類の下で31の異なる攻撃手法を分類・実装する。
論文 参考訳(メタデータ) (2025-08-18T00:23:41Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。