論文の概要: Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs
- arxiv url: http://arxiv.org/abs/2512.08417v2
- Date: Thu, 11 Dec 2025 03:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.19982
- Title: Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs
- Title(参考訳): LLMの間接的プロンプト・インジェクション・アタックに対する注意
- Authors: Yinan Zhong, Qianhao Miao, Yanjiao Chen, Jiangyi Deng, Yushi Cheng, Wenyuan Xu,
- Abstract要約: 大規模言語モデル(LLM)は、より洗練されたタスクを実行するために多くのアプリケーション(Webエージェントなど)に統合されている。
本稿では IPI 攻撃を検知・防止するための防御フレームワークである Rennervate について述べる。
- 参考スコア(独自算出の注目度): 27.395843922014294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been integrated into many applications (e.g., web agents) to perform more sophisticated tasks. However, LLM-empowered applications are vulnerable to Indirect Prompt Injection (IPI) attacks, where instructions are injected via untrustworthy external data sources. This paper presents Rennervate, a defense framework to detect and prevent IPI attacks. Rennervate leverages attention features to detect the covert injection at a fine-grained token level, enabling precise sanitization that neutralizes IPI attacks while maintaining LLM functionalities. Specifically, the token-level detector is materialized with a 2-step attentive pooling mechanism, which aggregates attention heads and response tokens for IPI detection and sanitization. Moreover, we establish a fine-grained IPI dataset, FIPI, to be open-sourced to support further research. Extensive experiments verify that Rennervate outperforms 15 commercial and academic IPI defense methods, achieving high precision on 5 LLMs and 6 datasets. We also demonstrate that Rennervate is transferable to unseen attacks and robust against adaptive adversaries.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より洗練されたタスクを実行するために、多くのアプリケーション(Webエージェントなど)に統合されている。
しかし、LCMを内蔵したアプリケーションは、インダイレクト・プロンプト・インジェクション(IPI)攻撃に対して脆弱であり、命令は信頼できない外部データソースを介して注入される。
本稿では IPI 攻撃を検知・防止するための防御フレームワークである Rennervate について述べる。
Rennervateは注意機能を活用して、詳細なトークンレベルでの隠蔽注入を検出し、LLM機能を維持しながらIPI攻撃を中和する正確な衛生を可能にする。
特に、トークンレベル検出器は、2段階の注意頭と応答トークンを集約してIPI検出と衛生を行う2段階の注意プーリング機構で実現されている。
さらに、さらなる研究を支援するために、細粒度IPIデータセットFIPIをオープンソース化する。
大規模な実験により、Rennervateは15の商業的および学術的なIPI防御手法より優れており、5つのLLMと6つのデータセットの精度が高いことが確認された。
また、Rennervateは目に見えない攻撃に対して移動可能であり、適応的な敵に対して堅牢であることを示す。
関連論文リスト
- Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs [2.2448294058653455]
敵は電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを利用してアライメント保護を回避する。
本稿では,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。
ZEDDは、モデル内部へのアクセス、アタックタイプの事前知識、タスク固有の再トレーニングを必要とせずに動作する。
論文 参考訳(メタデータ) (2026-01-18T11:33:35Z) - PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features [33.95073302161128]
既存のプロンプトインジェクション検出法は、しばしば準最適性能および/または高い計算オーバーヘッドを持つ。
本稿では,有効かつ効率的に検出できるPIShieldを提案する。
PIShieldは高効率かつ効率的であり,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-15T18:34:49Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。