論文の概要: May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks
- arxiv url: http://arxiv.org/abs/2507.07417v1
- Date: Thu, 10 Jul 2025 04:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.2721
- Title: May I have your Attention? Breaking Fine-Tuning based Prompt Injection Defenses using Architecture-Aware Attacks
- Title(参考訳): ご注意いただけますか?アーキテクチャ・アウェア・アタックによる微調整型プロンプト・インジェクション・ディフェンスを破って
- Authors: Nishit V. Pandya, Andrey Labunets, Sicun Gao, Earlence Fernandes,
- Abstract要約: 大規模な言語モデル(LLM)に対するインジェクション攻撃に対する一般的な防御クラスは、命令とデータを分離するためにモデルを微調整することに依存している。
我々は,このタイプのプロンプトインジェクション・ディフェンスのロバスト性を,強力な最適化に基づく攻撃の構築により評価した。
- 参考スコア(独自算出の注目度): 14.307668562901263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A popular class of defenses against prompt injection attacks on large language models (LLMs) relies on fine-tuning the model to separate instructions and data, so that the LLM does not follow instructions that might be present with data. There are several academic systems and production-level implementations of this idea. We evaluate the robustness of this class of prompt injection defenses in the whitebox setting by constructing strong optimization-based attacks and showing that the defenses do not provide the claimed security properties. Specifically, we construct a novel attention-based attack algorithm for text-based LLMs and apply it to two recent whitebox defenses SecAlign (CCS 2025) and StruQ (USENIX Security 2025), showing attacks with success rates of up to 70% with modest increase in attacker budget in terms of tokens. Our findings make fundamental progress towards understanding the robustness of prompt injection defenses in the whitebox setting. We release our code and attacks at https://github.com/nishitvp/better_opts_attacks
- Abstract(参考訳): 大規模な言語モデル(LLM)に対する即発的なインジェクション攻撃に対する一般的な防御のクラスは、モデルを微調整して命令とデータを分離することに依存しており、LCMはデータと共に存在する可能性のある命令に従わない。
このアイデアにはいくつかの学術システムと生産レベルの実装がある。
我々は, 強力な最適化ベースの攻撃を構築することで, ホワイトボックス設定におけるこのようなプロンプト・インジェクション・ディフェンスのロバスト性を評価し, 当該ディフェンスが要求されるセキュリティ特性を提供していないことを示す。
具体的には,テキストベースのLLMに対する新たなアテンションベースの攻撃アルゴリズムを構築し,最近開発された2つのホワイトボックスディフェンス SecAlign (CCS 2025) と StruQ (USENIX Security 2025) に適用した。
本研究は,ホワイトボックス環境におけるインジェクション・ディフェンスの堅牢性を理解するための基礎的な進歩を示すものである。
コードとアタックはhttps://github.com/nishitvp/better_opts_ attacksで公開しています。
関連論文リスト
- Defending Against Prompt Injection With a Few DefensiveTokens [53.7493897456957]
大規模言語モデル(LLM)システムは複雑なタスクを実行するために外部データと相互作用する。
システムによってアクセスされたデータに命令を注入することにより、攻撃者は攻撃者が指示する任意のタスクで初期ユーザタスクをオーバーライドすることができる。
システム開発者がフレキシブルな方法で必要な場合にのみセキュリティを確保するためには、例えば防御プロンプトのようなテストタイムディフェンスが提案されている。
トレーニング時の代替に匹敵するプロンプトインジェクションを備えたテストタイムディフェンスであるDefensiveTokenを提案する。
論文 参考訳(メタデータ) (2025-07-10T17:51:05Z) - Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Attack Agnostic Adversarial Defense via Visual Imperceptible Bound [70.72413095698961]
本研究の目的は、目視攻撃と目視攻撃の両方に対して一定の範囲内で堅牢な防衛モデルを設計することである。
提案するディフェンスモデルは,MNIST,CIFAR-10,Tiny ImageNetデータベース上で評価される。
提案アルゴリズムは攻撃非依存であり,攻撃アルゴリズムの知識を必要としない。
論文 参考訳(メタデータ) (2020-10-25T23:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。