論文の概要: Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search
- arxiv url: http://arxiv.org/abs/2603.24203v1
- Date: Wed, 25 Mar 2026 11:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.260333
- Title: Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search
- Title(参考訳): モデルコンテキストプロトコルからの見えない脅威:木に基づく適応探索によるステルスインジェクションペイロードの生成
- Authors: Yulin Shen, Xudong Pan, Geng Hong, Min Yang,
- Abstract要約: モデルコンテキストプロトコル(MCP)の最近の進歩により、大きな言語モデル(LLM)が前例のない簡単さで外部ツールを呼び出せるようになった。
これにより、強力なツール強化エージェントの新しいクラスが生成される。
MCPを標的とする間接的インジェクションの既存の技術は、高いデプロイメントコスト、弱いセマンティックコヒーレンス、重いホワイトボックス要求に悩まされている。
我々は,防衛下においてもMPP対応エージェントの制御を確実に抑えるために,自然なペイロードを生成する新しいブラックボックス攻撃であるTree Structured Injection for Payloads (TIP)を提案する。
- 参考スコア(独自算出の注目度): 19.570062155058135
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in the Model Context Protocol (MCP) have enabled large language models (LLMs) to invoke external tools with unprecedented ease. This creates a new class of powerful and tool augmented agents. Unfortunately, this capability also introduces an under explored attack surface, specifically the malicious manipulation of tool responses. Existing techniques for indirect prompt injection that target MCP suffer from high deployment costs, weak semantic coherence, or heavy white box requirements. Furthermore, they are often easily detected by recently proposed defenses. In this paper, we propose Tree structured Injection for Payloads (TIP), a novel black-box attack which generates natural payloads to reliably seize control of MCP enabled agents even under defense. Technically, We cast payload generation as a tree structured search problem and guide the search with an attacker LLM operating under our proposed coarse-to-fine optimization framework. To stabilize learning and avoid local optima, we introduce a path-aware feedback mechanism that surfaces only high quality historical trajectories to the attacker model. The framework is further hardened against defensive transformations by explicitly conditioning the search on observable defense signals and dynamically reallocating the exploration budget. Extensive experiments on four mainstream LLMs show that TIP attains over 95% attack success in undefended settings while requiring an order of magnitude fewer queries than prior adaptive attacks. Against four representative defense approaches, TIP preserves more than 50% effectiveness and significantly outperforms the state-of-the-art attacks. By implementing the attack on real world MCP systems, our results expose an invisible but practical threat vector in MCP deployments. We also discuss potential mitigation approaches to address this critical security gap.
- Abstract(参考訳): モデルコンテキストプロトコル(MCP)の最近の進歩により、大きな言語モデル(LLM)が前例のない簡単さで外部ツールを呼び出せるようになった。
これにより、強力なツール強化エージェントの新しいクラスが生成される。
残念なことに、この機能には未調査のアタックサーフェス、特にツールレスポンスの悪意ある操作が導入されている。
MCPを標的とする間接的インジェクションの既存の技術は、高いデプロイメントコスト、弱いセマンティックコヒーレンス、重いホワイトボックス要求に悩まされている。
さらに、最近提案された防衛策によって容易に検出されることが多い。
本稿では,防衛下においてもMPP対応エージェントの制御を確実に抑えるために,天然ペイロードを生成する新しいブラックボックス攻撃であるTree Structured Injection for Payloads (TIP)を提案する。
技術的には、木構造探索問題としてペイロード生成をキャストし、提案した粗大な最適化フレームワークの下で動作している攻撃者LSMによる探索を誘導する。
学習を安定させ,局所最適を避けるため,攻撃モデルに対して,高品質な履歴軌跡のみを提示するパス認識フィードバック機構を導入する。
このフレームワークは、観測可能な防衛信号の探索を明示的に条件付け、探索予算を動的に再配置することで、防御的変換に対してさらに強化される。
4つの主要なLCMの広範囲な実験により、TIPは意図しない設定で95%以上の攻撃成功を達成する一方で、以前の適応攻撃よりも桁違いに少ないクエリを必要とすることが示されている。
4つの代表的な防衛アプローチに対して、TIPは50%以上の有効性を保ち、最先端の攻撃を著しく上回っている。
実世界のMPPシステムに対する攻撃を実装することで、MPP展開において目に見えないが実用的な脅威ベクトルが明らかになる。
この重要なセキュリティギャップに対処するための潜在的な緩和アプローチについても論じる。
関連論文リスト
- T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search [49.99459363244884]
提案手法は, 対向的プロンプトの発見を導くために, 実行トラジェクトリを利用するトラジェクトリ対応の進化探索手法であるT-MAPを提案する。
本手法は,安全ガードレールをバイパスするだけでなく,実際のツールインタラクションによる有害な目標を確実に実現するための攻撃の自動生成を可能にする。
論文 参考訳(メタデータ) (2026-03-21T12:33:34Z) - AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs [24.71883582216731]
AdapToolsは、ステルス攻撃ツールを選択し、適応攻撃プロンプトを生成する、新しい適応IPI攻撃フレームワークである。
AdapToolsは攻撃成功率を2.13倍改善し、システムの実用性は1.78に低下する。
論文 参考訳(メタデータ) (2026-02-24T09:32:19Z) - CAHS-Attack: CLIP-Aware Heuristic Search Attack Method for Stable Diffusion [6.4760110921280045]
拡散モデルは、敵のプロンプトに直面すると顕著な脆弱さを示す。
本稿では,CLIP-Aware Heuristic Search攻撃法CAHS-Attackを提案する。
論文 参考訳(メタデータ) (2025-11-26T08:52:44Z) - Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。