論文の概要: PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization
- arxiv url: http://arxiv.org/abs/2511.10720v1
- Date: Thu, 13 Nov 2025 18:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.30128
- Title: PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization
- Title(参考訳): PIサニタイザ:プロンプト衛生化による長期LDMへのプロンプト注入防止
- Authors: Runpeng Geng, Yanting Wang, Chenlong Yin, Minhao Cheng, Ying Chen, Jinyuan Jia,
- Abstract要約: 長期のLLMはインジェクションに弱い。
PISanitizerは、バックエンドのLCMがレスポンスを生成する前に、潜在的な注入トークンをサニタイズする。
PISanitizerは、迅速な注入を効果的に防止し、実用性を維持し、既存の防御を上回り、効率的であり、最適化ベースで強力な適応攻撃に対して堅牢である。
- 参考スコア(独自算出の注目度): 34.516158143781134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long context LLMs are vulnerable to prompt injection, where an attacker can inject an instruction in a long context to induce an LLM to generate an attacker-desired output. Existing prompt injection defenses are designed for short contexts. When extended to long-context scenarios, they have limited effectiveness. The reason is that an injected instruction constitutes only a very small portion of a long context, making the defense very challenging. In this work, we propose PISanitizer, which first pinpoints and sanitizes potential injected tokens (if any) in a context before letting a backend LLM generate a response, thereby eliminating the influence of the injected instruction. To sanitize injected tokens, PISanitizer builds on two observations: (1) prompt injection attacks essentially craft an instruction that compels an LLM to follow it, and (2) LLMs intrinsically leverage the attention mechanism to focus on crucial input tokens for output generation. Guided by these two observations, we first intentionally let an LLM follow arbitrary instructions in a context and then sanitize tokens receiving high attention that drive the instruction-following behavior of the LLM. By design, PISanitizer presents a dilemma for an attacker: the more effectively an injected instruction compels an LLM to follow it, the more likely it is to be sanitized by PISanitizer. Our extensive evaluation shows that PISanitizer can successfully prevent prompt injection, maintain utility, outperform existing defenses, is efficient, and is robust to optimization-based and strong adaptive attacks. The code is available at https://github.com/sleeepeer/PISanitizer.
- Abstract(参考訳): ロングコンテキストのLSMはプロンプトインジェクションに弱いので、攻撃者は長いコンテキストで命令を注入してLLMを誘導して攻撃者が望んだ出力を生成することができる。
既存のプロンプトインジェクションディフェンスは、短いコンテキストのために設計されている。
長いコンテキストのシナリオに拡張すると、有効性は制限される。
その理由は、注入された命令が長い文脈のごく一部を構成するだけであり、防御が非常に困難であるからである。
本研究では、まず、バックエンドLSMが応答を発生させる前に、コンテキスト内で潜在的注入トークン(もしあれば)をピンポイントし、消毒するPISanitizerを提案する。
PISanitizer は,(1) インジェクション攻撃は LLM を補完する命令を基本的に作成し,(2) インジェクション機構を内在的に活用して出力生成のための重要な入力トークンにフォーカスする。
これらの2つの観察から導かれることにより、まずLLMがコンテキスト内の任意の命令に従うようにし、次に高い注意を払ってLLMの指示追従動作を駆動するトークンを衛生化する。
PISanitizerは、攻撃者に対してジレンマを提示する: インジェクトされた命令がLLMを補完してそれに従うほど、PISanitizerはそれを衛生化する可能性が高い。
評価の結果,PISanitizerは即時注入の防止,実用性維持,既存の防御性能の向上,効率的で,最適化ベースで強力な適応攻撃に対して堅牢であることがわかった。
コードはhttps://github.com/sleeepeer/PISanitizer.comで入手できる。
関連論文リスト
- PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features [33.95073302161128]
既存のプロンプトインジェクション検出法は、しばしば準最適性能および/または高い計算オーバーヘッドを持つ。
本稿では,有効かつ効率的に検出できるPIShieldを提案する。
PIShieldは高効率かつ効率的であり,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-15T18:34:49Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。