論文の概要: Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs
- arxiv url: http://arxiv.org/abs/2512.08417v1
- Date: Tue, 09 Dec 2025 09:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.900834
- Title: Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs
- Title(参考訳): LLMの間接的プロンプト・インジェクション・アタックに対する注意
- Authors: Yinan Zhong, Qianhao Miao, Yanjiao Chen, Jiangyi Deng, Yushi Cheng, Wenyuan Xu,
- Abstract要約: 大規模言語モデル(LLM)は、より洗練されたタスクを実行するために多くのアプリケーション(Webエージェントなど)に統合されている。
本稿では IPI 攻撃を検知・防止するための防御フレームワークである Rennervate について述べる。
- 参考スコア(独自算出の注目度): 27.395843922014294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been integrated into many applications (e.g., web agents) to perform more sophisticated tasks. However, LLM-empowered applications are vulnerable to Indirect Prompt Injection (IPI) attacks, where instructions are injected via untrustworthy external data sources. This paper presents Rennervate, a defense framework to detect and prevent IPI attacks. Rennervate leverages attention features to detect the covert injection at a fine-grained token level, enabling precise sanitization that neutralizes IPI attacks while maintaining LLM functionalities. Specifically, the token-level detector is materialized with a 2-step attentive pooling mechanism, which aggregates attention heads and response tokens for IPI detection and sanitization. Moreover, we establish a fine-grained IPI dataset, FIPI, to be open-sourced to support further research. Extensive experiments verify that Rennervate outperforms 15 commercial and academic IPI defense methods, achieving high precision on 5 LLMs and 6 datasets. We also demonstrate that Rennervate is transferable to unseen attacks and robust against adaptive adversaries.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より洗練されたタスクを実行するために、多くのアプリケーション(Webエージェントなど)に統合されている。
しかし、LCMを内蔵したアプリケーションは、インダイレクト・プロンプト・インジェクション(IPI)攻撃に対して脆弱であり、命令は信頼できない外部データソースを介して注入される。
本稿では IPI 攻撃を検知・防止するための防御フレームワークである Rennervate について述べる。
Rennervateは注意機能を活用して、詳細なトークンレベルでの隠蔽注入を検出し、LLM機能を維持しながらIPI攻撃を中和する正確な衛生を可能にする。
特に、トークンレベル検出器は、2段階の注意頭と応答トークンを集約してIPI検出と衛生を行う2段階の注意プーリング機構で実現されている。
さらに、さらなる研究を支援するために、細粒度IPIデータセットFIPIをオープンソース化する。
大規模な実験により、Rennervateは15の商業的および学術的なIPI防御手法より優れており、5つのLLMと6つのデータセットの精度が高いことが確認された。
また、Rennervateは目に見えない攻撃に対して移動可能であり、適応的な敵に対して堅牢であることを示す。
関連論文リスト
- PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features [33.95073302161128]
既存のプロンプトインジェクション検出法は、しばしば準最適性能および/または高い計算オーバーヘッドを持つ。
本稿では,有効かつ効率的に検出できるPIShieldを提案する。
PIShieldは高効率かつ効率的であり,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-15T18:34:49Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。