論文の概要: May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks
- arxiv url: http://arxiv.org/abs/2507.07417v1
- Date: Thu, 10 Jul 2025 04:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.2721
- Title: May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks
- Title(参考訳): ご注意いただけますか?アーキテクチャ・アウェア・アタックによる微調整型プロンプト・インジェクション・ディフェンスを破って
- Authors: Nishit V. Pandya, Andrey Labunets, Sicun Gao, Earlence Fernandes,
- Abstract要約: 大規模な言語モデル(LLM)に対するインジェクション攻撃に対する一般的な防御クラスは、命令とデータを分離するためにモデルを微調整することに依存している。
我々は,このタイプのプロンプトインジェクション・ディフェンスのロバスト性を,強力な最適化に基づく攻撃の構築により評価した。
- 参考スコア(独自算出の注目度): 14.307668562901263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A popular class of defenses against prompt injection attacks on large language models (LLMs) relies on fine-tuning the model to separate instructions and data, so that the LLM does not follow instructions that might be present with data. There are several academic systems and production-level implementations of this idea. We evaluate the robustness of this class of prompt injection defenses in the whitebox setting by constructing strong optimization-based attacks and showing that the defenses do not provide the claimed security properties. Specifically, we construct a novel attention-based attack algorithm for text-based LLMs and apply it to two recent whitebox defenses SecAlign (CCS 2025) and StruQ (USENIX Security 2025), showing attacks with success rates of up to 70% with modest increase in attacker budget in terms of tokens. Our findings make fundamental progress towards understanding the robustness of prompt injection defenses in the whitebox setting. We release our code and attacks at https://github.com/nishitvp/better_opts_attacks
- Abstract(参考訳): 大規模な言語モデル(LLM)に対する即発的なインジェクション攻撃に対する一般的な防御のクラスは、モデルを微調整して命令とデータを分離することに依存しており、LCMはデータと共に存在する可能性のある命令に従わない。
このアイデアにはいくつかの学術システムと生産レベルの実装がある。
我々は, 強力な最適化ベースの攻撃を構築することで, ホワイトボックス設定におけるこのようなプロンプト・インジェクション・ディフェンスのロバスト性を評価し, 当該ディフェンスが要求されるセキュリティ特性を提供していないことを示す。
具体的には,テキストベースのLLMに対する新たなアテンションベースの攻撃アルゴリズムを構築し,最近開発された2つのホワイトボックスディフェンス SecAlign (CCS 2025) と StruQ (USENIX Security 2025) に適用した。
本研究は,ホワイトボックス環境におけるインジェクション・ディフェンスの堅牢性を理解するための基礎的な進歩を示すものである。
コードとアタックはhttps://github.com/nishitvp/better_opts_ attacksで公開しています。
関連論文リスト
- SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。