論文の概要: Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction
- arxiv url: http://arxiv.org/abs/2504.20472v1
- Date: Tue, 29 Apr 2025 07:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.782238
- Title: Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction
- Title(参考訳): 参照によるロバストネス:エクスカレートインストラクションを参照してプロンプトインジェクションアタックに対する防御
- Authors: Yulin Chen, Haoran Li, Yuan Sui, Yue Liu, Yufei He, Yangqiu Song, Bryan Hooi,
- Abstract要約: 大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
- 参考スコア(独自算出の注目度): 68.6543680065379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance and have come to dominate the field of natural language processing (NLP) across various tasks. However, due to their strong instruction-following capabilities and inability to distinguish between instructions and data content, LLMs are vulnerable to prompt injection attacks. These attacks manipulate LLMs into deviating from the original input instructions and executing maliciously injected instructions within data content, such as web documents retrieved from search engines. Existing defense methods, including prompt-engineering and fine-tuning approaches, typically instruct models to follow the original input instructions while suppressing their tendencies to execute injected instructions. However, our experiments reveal that suppressing instruction-following tendencies is challenging. Through analyzing failure cases, we observe that although LLMs tend to respond to any recognized instructions, they are aware of which specific instructions they are executing and can correctly reference them within the original prompt. Motivated by these findings, we propose a novel defense method that leverages, rather than suppresses, the instruction-following abilities of LLMs. Our approach prompts LLMs to generate responses that include both answers and their corresponding instruction references. Based on these references, we filter out answers not associated with the original input instructions. Comprehensive experiments demonstrate that our method outperforms prompt-engineering baselines and achieves performance comparable to fine-tuning methods, reducing the attack success rate (ASR) to 0 percent in some scenarios. Moreover, our approach has minimal impact on overall utility.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい性能を示し、様々なタスクで自然言語処理(NLP)の分野を支配している。
しかし、命令追従能力が強く、命令とデータ内容の区別ができないため、LSMはインジェクション攻撃に弱い。
これらの攻撃はLSMを操作して元の入力命令から逸脱させ、検索エンジンから取得したWebドキュメントのようなデータコンテンツ内で悪意あるインジェクションを実行する。
プロンプトエンジニアリングや微調整のアプローチを含む既存の防御手法は、通常、モデルに元の入力命令に従うように指示する一方で、インジェクション命令を実行する傾向を抑える。
しかし,本実験の結果,命令追従傾向の抑制は困難であることが判明した。
故障事例を解析した結果,LSMは認識された命令に応答する傾向にあるものの,どの命令を実行しているかを認識し,元のプロンプト内で正しく参照可能であることがわかった。
これらの知見に触発され, LLMの指示追従能力を抑えるのではなく, 新たな防御手法を提案する。
提案手法はLLMに対して,回答とそれに対応する命令参照の両方を含む応答を生成するよう促す。
これらの参照に基づいて、元の入力命令とは無関係な回答をフィルタリングする。
包括的実験により,本手法は,いくつかのシナリオにおいて,アタック成功率 (ASR) を0パーセントに低下させるとともに,即時エンジニアリングのベースラインを向上し,微調整手法に匹敵する性能を達成することを示した。
さらに、私たちのアプローチは全体のユーティリティに最小限の影響を与えます。
関連論文リスト
- LLMs can be easily Confused by Instructional Distractions [16.060402139507644]
大規模言語モデルは、タスクに続く命令において例外的なスキルを示す。
この強度は、モデルが特定の命令を無視しなければならない場合に脆弱性になる可能性がある。
DIM-Benchと呼ばれる新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-02-05T04:52:57Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions [21.76697662025996]
LLMは、インジェクション、ジェイルブレイク、その他の攻撃に対して感受性があり、敵は自身の悪意のあるプロンプトでモデルのオリジナルの命令を上書きできる。
本稿では,異なる優先度の命令が矛盾する場合に,モデルがどのように振る舞うかを明確に定義する命令階層を提案する。
この手法をGPT-3.5に適用すると、トレーニング中に見えない攻撃タイプに対してさえ、ロバスト性を大幅に向上すると同時に、標準機能に最小限の劣化を課すことが示される。
論文 参考訳(メタデータ) (2024-04-19T22:55:23Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。