論文の概要: CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution
- arxiv url: http://arxiv.org/abs/2602.07918v1
- Date: Sun, 08 Feb 2026 11:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.871079
- Title: CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution
- Title(参考訳): CausalArmor:CausalAtributionによる効率的な間接プロンプトインジェクションガードレール
- Authors: Minbeom Kim, Mihir Parmar, Phillip Wallis, Lesly Miculicich, Kyomin Jung, Krishnamurthy Dj Dvijotham, Long T. Le, Tomas Pfister,
- Abstract要約: ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
- 参考スコア(独自算出の注目度): 49.689452243966315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents equipped with tool-calling capabilities are susceptible to Indirect Prompt Injection (IPI) attacks. In this attack scenario, malicious commands hidden within untrusted content trick the agent into performing unauthorized actions. Existing defenses can reduce attack success but often suffer from the over-defense dilemma: they deploy expensive, always-on sanitization regardless of actual threat, thereby degrading utility and latency even in benign scenarios. We revisit IPI through a causal ablation perspective: a successful injection manifests as a dominance shift where the user request no longer provides decisive support for the agent's privileged action, while a particular untrusted segment, such as a retrieved document or tool output, provides disproportionate attributable influence. Based on this signature, we propose CausalArmor, a selective defense framework that (i) computes lightweight, leave-one-out ablation-based attributions at privileged decision points, and (ii) triggers targeted sanitization only when an untrusted segment dominates the user intent. Additionally, CausalArmor employs retroactive Chain-of-Thought masking to prevent the agent from acting on ``poisoned'' reasoning traces. We present a theoretical analysis showing that sanitization based on attribution margins conditionally yields an exponentially small upper bound on the probability of selecting malicious actions. Experiments on AgentDojo and DoomArena demonstrate that CausalArmor matches the security of aggressive defenses while improving explainability and preserving utility and latency of AI agents.
- Abstract(参考訳): ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
この攻撃シナリオでは、信頼できないコンテンツの中に隠された悪意のあるコマンドがエージェントを騙して、権限のないアクションを実行する。
既存の防御は、攻撃の成功を減らすことができるが、しばしば過防衛のジレンマに悩まされる。
ユーザ要求がもはやエージェントの特権的行動に対する決定的なサポートを提供しない支配的なシフトとして、インジェクションが成功すると、検索された文書やツールアウトプットのような特定の信頼できないセグメントは、不当な帰属的な影響をもたらす。
この署名に基づいて、選択的防御フレームワークCausalArmorを提案する。
二 特権決定点における軽量かつ一律の格付けに基づく属性を計算すること。
(ii)信頼できないセグメントがユーザ意図を支配している場合にのみ、ターゲットの衛生をトリガーする。
さらに、CausalArmorは、エージェントが ``poisoned'' の推論トレースに作用するのを防ぐために、レトロアクティブなChain-of-Thoughtマスクを使用している。
本研究では, 帰属率に基づく衛生化が, 悪意ある行動を選択する確率に比例して, 指数的に小さな上限を与えることを示す理論的解析を行った。
AgentDojoとDoomArenaの実験では、CausalArmorは攻撃的な防御のセキュリティと一致し、説明可能性を改善し、AIエージェントの実用性とレイテンシを保っている。
関連論文リスト
- Defense Against Indirect Prompt Injection via Tool Result Parsing [5.69701430275527]
LLMエージェントは間接的なプロンプトインジェクションからエスカレートする脅威に直面している。
この脆弱性は、エージェントが物理的な環境をより直接的に制御するようになると、重大なリスクをもたらす。
そこで本稿では,LLMに対してツール解析による正確なデータを提供するとともに,注入された悪意のあるコードを効果的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2026-01-08T10:21:56Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。
実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。
この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文 参考訳(メタデータ) (2024-10-22T12:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。