論文の概要: AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
- arxiv url: http://arxiv.org/abs/2603.10749v1
- Date: Wed, 11 Mar 2026 13:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.960853
- Title: AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations
- Title(参考訳): AttriGuard: ツール起動の因果的帰属によるLSMエージェントの間接プロンプト注入の制御
- Authors: Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan Qin,
- Abstract要約: LLMエージェントは間接プロンプト注入(IPI)に対して非常に脆弱である
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
我々はこのパラダイムを、並列対実テストに基づくランタイムディフェンスであるAttriGuardでインスタンス化する。
- 参考スコア(独自算出の注目度): 38.49666480491258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents are highly vulnerable to Indirect Prompt Injection (IPI), where adversaries embed malicious directives in untrusted tool outputs to hijack execution. Most existing defenses treat IPI as an input-level semantic discrimination problem, which often fails to generalize to unseen payloads. We propose a new paradigm, action-level causal attribution, which secures agents by asking why a particular tool call is produced. The central goal is to distinguish tool calls supported by the user's intent from those causally driven by untrusted observations. We instantiate this paradigm with AttriGuard, a runtime defense based on parallel counterfactual tests. For each proposed tool call, AttriGuard verifies its necessity by re-executing the agent under a control-attenuated view of external observations. Technically, AttriGuard combines teacher-forced shadow replay to prevent attribution confounding, hierarchical control attenuation to suppress diverse control channels while preserving task-relevant information, and a fuzzy survival criterion that is robust to LLM stochasticity. Across four LLMs and two agent benchmarks, AttriGuard achieves 0% ASR under static attacks with negligible utility loss and moderate overhead. Importantly, it remains resilient under adaptive optimization-based attacks in settings where leading defenses degrade significantly.
- Abstract(参考訳): LLMエージェントは、非信頼のツール出力に悪意のあるディレクティブを埋め込んでハイジャック実行を行うIPI(Indirect Prompt Injection)に対して、非常に脆弱である。
既存のディフェンスの多くは、IPIを入力レベルのセマンティックな識別問題として扱い、しばしば見つからないペイロードへの一般化に失敗する。
本稿では,特定のツールコールが生成される理由を問うことでエージェントをセキュアにする,アクションレベルの因果属性という新しいパラダイムを提案する。
中心的な目標は、ユーザの意図によってサポートされているツールコールと、信頼できない観察によって因果的に駆動されるツールコールを区別することである。
並列対実テストに基づくランタイムディフェンスであるAttriGuardで、このパラダイムをインスタンス化する。
提案されたツールコール毎に、AttriGuardは、外部観測の制御強化ビューの下でエージェントを再実行することで、その必要性を検証する。
技術的には、AttriGuardは教師によるシャドウリプレイを組み合わさり、帰属を防ぎ、タスク関連情報を保存しながら多様な制御チャネルを抑える階層的な制御減衰、LLM確率性に頑健なファジィサバイバル基準を組み合わさっている。
4つのLLMと2つのエージェントベンチマークで、AttriGuardは、無視できるユーティリティ損失と適度なオーバーヘッドで静的攻撃の下で0%のASRを達成する。
重要なことは、リードディフェンスが大幅に低下する設定において、適応最適化ベースの攻撃の下では、回復力を維持することである。
関連論文リスト
- AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification [25.817251923574286]
大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T07:59:10Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis [48.70474961584997]
インダイレクト・プロンプト・インジェクション・アタック(IPIA)は大きな言語モデル(LLM)に重大な脅威をもたらす
IntentGuardは、命令追従インテント分析に基づく一般的な防御フレームワークである。
論文 参考訳(メタデータ) (2025-11-30T16:29:04Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。