論文の概要: MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP
- arxiv url: http://arxiv.org/abs/2601.07395v1
- Date: Mon, 12 Jan 2026 10:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.336446
- Title: MCP-ITP: An Automated Framework for Implicit Tool Poisoning in MCP
- Title(参考訳): MCP-ITP: MCPにおけるインプシット・ツール・ポジショニングのための自動化フレームワーク
- Authors: Ruiqi Li, Zhiqiang Wang, Yunhao Yao, Xiang-Yang Li,
- Abstract要約: 暗黙のツール中毒では、ツールメタデータに埋め込まれた悪意のある命令が、モデルコンテキストプロトコル(MCP)登録フェーズ中にエージェントコンテキストに注入される。
MCPエコシステム内での暗黙のツール中毒に対する最初の自動化および適応型フレームワークであるMPP-ITPを提案する。
- 参考スコア(独自算出の注目度): 22.063867518456743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To standardize interactions between LLM-based agents and their environments, the Model Context Protocol (MCP) was proposed and has since been widely adopted. However, integrating external tools expands the attack surface, exposing agents to tool poisoning attacks. In such attacks, malicious instructions embedded in tool metadata are injected into the agent context during MCP registration phase, thereby manipulating agent behavior. Prior work primarily focuses on explicit tool poisoning or relied on manually crafted poisoned tools. In contrast, we focus on a particularly stealthy variant: implicit tool poisoning, where the poisoned tool itself remains uninvoked. Instead, the instructions embedded in the tool metadata induce the agent to invoke a legitimate but high-privilege tool to perform malicious operations. We propose MCP-ITP, the first automated and adaptive framework for implicit tool poisoning within the MCP ecosystem. MCP-ITP formulates poisoned tool generation as a black-box optimization problem and employs an iterative optimization strategy that leverages feedback from both an evaluation LLM and a detection LLM to maximize Attack Success Rate (ASR) while evading current detection mechanisms. Experimental results on the MCPTox dataset across 12 LLM agents demonstrate that MCP-ITP consistently outperforms the manually crafted baseline, achieving up to 84.2% ASR while suppressing the Malicious Tool Detection Rate (MDR) to as low as 0.3%.
- Abstract(参考訳): LLMベースのエージェントとその環境間のインタラクションを標準化するために、モデルコンテキストプロトコル(MCP)が提案され、その後広く採用されている。
しかし、外部ツールを統合することで攻撃面が拡大し、エージェントがツール中毒攻撃に晒される。
このような攻撃では、MPP登録期間中にツールメタデータに埋め込まれた悪意のある命令がエージェントコンテキストに注入され、エージェントの動作が操作される。
以前の作業は主に、明示的なツール中毒、または手作りの有毒工具に依存していることに焦点を当てていた。
対照的に、私たちは特にステルスな変種である暗黙のツール中毒に焦点を当てています。
代わりに、ツールメタデータに埋め込まれた命令は、悪意のある操作を実行するために、エージェントに合法だが高特権のツールを呼び出すように誘導する。
MCPエコシステム内での暗黙のツール中毒に対する最初の自動化および適応型フレームワークであるMPP-ITPを提案する。
MCP-ITPは、ブラックボックス最適化問題として有毒ツール生成を定式化し、評価LSMと検出LSMの両方からのフィードバックを活用して、電流検出機構を回避しつつ、攻撃成功率(ASR)を最大化する反復最適化戦略を採用している。
12個のLCMエージェントにわたるMCPToxデータセットの実験結果によると、MPP-ITPは手作業によるベースラインを一貫して上回り、最大84.2%のASRを達成し、MDR(Malicious Tool Detection Rate)を0.3%まで抑える。
関連論文リスト
- MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents [14.507665159809138]
Model Context Protocol(MCP)は、大規模な言語モデル(LLM)エージェントが外部ツールを発見し、記述し、呼び出す方法を標準化する。
我々は,MSB (MCP Security Benchmark) について述べる。MSB (MCP Security Benchmark) は,LCM エージェントが MCP 固有の攻撃にどの程度抵抗するかを測定する最初のエンドツーエンド評価スイートである。
論文 参考訳(メタデータ) (2025-10-14T07:36:25Z) - ToolTweak: An Attack on Tool Selection in LLM-based Agents [52.17181489286236]
対戦相手は,特定のツールの選択に対して,エージェントを体系的にバイアスし,等しく有能な代替手段に対して不公平な優位性を得ることができることを示す。
提案するToolTweakは,ベースラインの20%程度から最大81%までの選択率を向上する,軽量自動攻撃である。
これらのリスクを軽減するために、パラフレージングとパープレキシティ・フィルタリングという2つの防御効果を評価し、バイアスを低減し、エージェントが機能的に類似したツールをより平等に選択できるようにする。
論文 参考訳(メタデータ) (2025-10-02T20:44:44Z) - Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools [47.32559576064343]
我々は、悪意のあるMPPツールを生成することで、LSMベースのエージェントのための自動レッドチーム化フレームワークであるAutoMalToolを提案する。
評価の結果,AutoMalToolは主要なLCMエージェントの動作を制御できる悪意のあるMPPツールを効果的に生成できることがわかった。
論文 参考訳(メタデータ) (2025-09-25T11:14:38Z) - Mind Your Server: A Systematic Study of Parasitic Toolchain Attacks on the MCP Ecosystem [13.95558554298296]
大規模言語モデル(LLM)は、モデルコンテキストプロトコル(MCP)を通じて、外部システムとますます統合される。
本稿では,MCP Unintended Privacy Disclosure (MCP-UPD) としてインスタンス化された新たな攻撃方法であるParasitic Toolchain Attacksを明らかにする。
悪意のあるロジックはツールチェーンに侵入し,寄生的取り込み,プライバシコレクション,プライバシ開示という3つのフェーズで展開する。
論文 参考訳(メタデータ) (2025-09-08T11:35:32Z) - MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers [12.669529656631937]
MCPToxは,現実的なMCP設定において,ツールポジショニングに対するエージェントの堅牢性を評価する最初のベンチマークである。
MCPToxは、数ショットの学習によって1312の悪意のあるテストケースの包括的なスイートを生成し、潜在的なリスクの10のカテゴリをカバーする。
評価の結果,o1-miniで72.8%の攻撃成功率を達成したツールポイジングの脆弱性が広く報告されている。
論文 参考訳(メタデータ) (2025-08-19T10:12:35Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。