論文の概要: Checkpoint-GCG: Auditing and Attacking Fine-Tuning-Based Prompt Injection Defenses
- arxiv url: http://arxiv.org/abs/2505.15738v2
- Date: Thu, 16 Oct 2025 12:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.372025
- Title: Checkpoint-GCG: Auditing and Attacking Fine-Tuning-Based Prompt Injection Defenses
- Title(参考訳): Checkpoint-GCG: 微調整型プロンプトインジェクションの監査と攻撃
- Authors: Xiaoxue Yang, Bozhidar Stevanoski, Matthieu Meeus, Yves-Alexandre de Montjoye,
- Abstract要約: 細調整による防御に対するホワイトボックス攻撃であるCheckpoint-GCGを導入する。
最強防衛に対する攻撃成功率(ASR)を最大96%まで達成できるチェックポイントGCGを示す。
- 参考スコア(独自算出の注目度): 10.08464073347558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in real-world applications ranging from chatbots to agentic systems, where they are expected to process untrusted data and follow trusted instructions. Failure to distinguish between the two poses significant security risks, exploited by prompt injection attacks, which inject malicious instructions into the data to control model outputs. Model-level defenses have been proposed to mitigate prompt injection attacks. These defenses fine-tune LLMs to ignore injected instructions in untrusted data. We introduce Checkpoint-GCG, a white-box attack against fine-tuning-based defenses. Checkpoint-GCG enhances the Greedy Coordinate Gradient (GCG) attack by leveraging intermediate model checkpoints produced during fine-tuning to initialize GCG, with each checkpoint acting as a stepping stone for the next one to continuously improve attacks. First, we instantiate Checkpoint-GCG to evaluate the robustness of the state-of-the-art defenses in an auditing setup, assuming both (a) full knowledge of the model input and (b) access to intermediate model checkpoints. We show Checkpoint-GCG to achieve up to $96\%$ attack success rate (ASR) against the strongest defense. Second, we relax the first assumption by searching for a universal suffix that would work on unseen inputs, and obtain up to $89.9\%$ ASR against the strongest defense. Finally, we relax both assumptions by searching for a universal suffix that would transfer to similar black-box models and defenses, achieving an ASR of $63.9\%$ against a newly released defended model from Meta.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チャットボットからエージェントシステムまで、信頼できないデータを処理し、信頼できる指示に従うという現実のアプリケーションにますます多くデプロイされている。
2つの区別の失敗は、モデル出力を制御するためにデータに悪意のある命令を注入するインジェクション攻撃によって悪用される、重大なセキュリティリスクを引き起こす。
インジェクション攻撃を緩和するモデルレベルディフェンスが提案されている。
これらのディフェンスは、信頼できないデータに注入された命令を無視するために微調整のLSMを使用する。
細調整による防御に対するホワイトボックス攻撃であるCheckpoint-GCGを導入する。
Checkpoint-GCGは、微調整中に生成された中間モデルチェックポイントを利用してGCGを初期化することにより、グレディ座標勾配(GCG)攻撃を強化する。
まず,Checkpoint-GCGをインスタンス化して,両者を仮定した監査設定における最先端の防御の堅牢性を評価する。
a)モデル入力と入力の完全な知識
b)中間モデルチェックポイントへのアクセス。
最強防衛に対する攻撃成功率(ASR)を最大9,6 %まで達成できるチェックポイントGCGを示す。
第二に、我々は、目に見えない入力に作用する普遍接尾辞を探し、最強の防御に対して最大で89.9 %の ASR を得るという最初の仮定を緩める。
最後に、同様のブラックボックスモデルやディフェンスに移行するユニバーサルサフィックスを探し、メタから新たにリリースされたディフェンスモデルに対して63.9\%のASRを達成することで、両方の仮定を緩和する。
関連論文リスト
- Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Scale-Invariant Adversarial Attack for Evaluating and Enhancing
Adversarial Defenses [22.531976474053057]
プロジェクテッド・グラディエント・Descent (PGD) 攻撃は最も成功した敵攻撃の1つであることが示されている。
我々は, 対向層の特徴とソフトマックス層の重みの角度を利用して, 対向層の生成を誘導するスケール不変逆襲 (SI-PGD) を提案する。
論文 参考訳(メタデータ) (2022-01-29T08:40:53Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。