論文の概要: AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification
- arxiv url: http://arxiv.org/abs/2602.22724v1
- Date: Thu, 26 Feb 2026 07:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.586607
- Title: AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification
- Title(参考訳): AgentSentry: 経時的因果診断と文脈浄化によるLPMエージェントの間接的プロンプト注入の軽減
- Authors: Tian Zhang, Yiwei Xu, Juan Wang, Keyan Guo, Xiaoyang Xu, Bowen Xiao, Quanlong Guan, Jinlin Fan, Jiawei Liu, Zhiquan Liu, Hongxin Hu,
- Abstract要約: 大規模言語モデル(LLM)エージェントのための新しい推論時間検出・緩和フレームワークを提案する。
AgentSentryは、時間的因果的テイクオーバーとしてマルチターンIPIをモデル化する最初の推論時防御である。
我々は, textscAgentDojo ベンチマークにおいて, 4つのタスクスイート, 3つの IPI 攻撃ファミリー, 複数のブラックボックス LLM に対する AgentSentry の評価を行った。
- 参考スコア(独自算出の注目度): 25.817251923574286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents increasingly rely on external tools and retrieval systems to autonomously complete complex tasks. However, this design exposes agents to indirect prompt injection (IPI), where attacker-controlled context embedded in tool outputs or retrieved content silently steers agent actions away from user intent. Unlike prompt-based attacks, IPI unfolds over multi-turn trajectories, making malicious control difficult to disentangle from legitimate task execution. Existing inference-time defenses primarily rely on heuristic detection and conservative blocking of high-risk actions, which can prematurely terminate workflows or broadly suppress tool usage under ambiguous multi-turn scenarios. We propose AgentSentry, a novel inference-time detection and mitigation framework for tool-augmented LLM agents. To the best of our knowledge, AgentSentry is the first inference-time defense to model multi-turn IPI as a temporal causal takeover. It localizes takeover points via controlled counterfactual re-executions at tool-return boundaries and enables safe continuation through causally guided context purification that removes attack-induced deviations while preserving task-relevant evidence. We evaluate AgentSentry on the \textsc{AgentDojo} benchmark across four task suites, three IPI attack families, and multiple black-box LLMs. AgentSentry eliminates successful attacks and maintains strong utility under attack, achieving an average Utility Under Attack (UA) of 74.55 %, improving UA by 20.8 to 33.6 percentage points over the strongest baselines without degrading benign performance.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑なタスクを自律的に完了するために、外部ツールや検索システムに依存している。
しかし、この設計はエージェントを間接的プロンプトインジェクション(IPI)に公開し、攻撃者が制御したコンテキストをツール出力に埋め込んだり、削除されたコンテンツがユーザーの意図からエージェントアクションを静かに操作する。
プロンプトベースの攻撃とは異なり、IPIはマルチターントラジェクトリに展開し、悪意のある制御を正当なタスク実行から切り離すことが困難になる。
既存の推論時の防御は主にヒューリスティックな検出と高リスクアクションの保守的ブロッキングに依存しており、ワークフローを早期に停止したり、曖昧なマルチターンシナリオ下でのツール使用を広範囲に抑制することができる。
本稿では,ツール拡張LDMエージェントのための新しい推論時間検出・緩和フレームワークであるAgentSentryを提案する。
我々の知る限りでは、AgentSentryは、時間的因果分解としてマルチターンIPIをモデル化する最初の推論時防御である。
ツール・リターン・バウンダリで制御された反事実的再実行を通じて、テイクオーバーポイントをローカライズし、タスク関連エビデンスを保持しながら、攻撃による逸脱を除去する因果ガイド付きコンテキスト浄化を通じて安全な継続を可能にする。
我々は,4つのタスクスイート,3つのIPI攻撃ファミリー,複数のブラックボックスLDMを対象とした,textsc{AgentDojo}ベンチマークでAgentSentryを評価した。
AgentSentryは攻撃の成功を排除し、攻撃中の強力なユーティリティを維持し、平均的なUA(Utility Under Attack)を74.55%達成し、最強のベースライン上でUAを20.8から33.6ポイント改善する。
関連論文リスト
- ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - IPIGuard: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents [33.775221377823925]
大規模言語モデル(LLM)エージェントは現実世界のアプリケーションに広くデプロイされており、複雑なタスクのために外部データを検索し操作するためのツールを活用している。
信頼できないデータソースと対話する場合、ツールレスポンスには、エージェントの動作に秘密裏に影響を与え、悪意のある結果をもたらすインジェクションが含まれている可能性がある。
我々はIPIGuardと呼ばれる新しい防御タスク実行パラダイムを提案し、ソースにおける悪意あるツール呼び出しを防止する。
論文 参考訳(メタデータ) (2025-08-21T07:08:16Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。