論文の概要: Accelerating Suffix Jailbreak attacks with Prefix-Shared KV-cache
- arxiv url: http://arxiv.org/abs/2603.13420v1
- Date: Thu, 12 Mar 2026 21:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.184947
- Title: Accelerating Suffix Jailbreak attacks with Prefix-Shared KV-cache
- Title(参考訳): Prefix-Shared KV-cache によるSuffix Jailbreak 攻撃の加速
- Authors: Xinhai Wang, Shaopeng Fu, Shu Yang, Liangyu Wang, Tianhang Zheng, Di Wang,
- Abstract要約: Suffix jailbreak攻撃は、LLM(Large Language Models)をリピートする体系的な方法として機能するが、計算コストの制限に悩まされる。
本稿では,jailbreak suffix 生成に適したプラグアンドプレイ推論技術である Prefix-Shared KV Cache (PSKV) を提案する。
本手法は,サフィックスジェイルブレーキングを行う場合,多数の候補のプロンプトを評価する必要がある一方で,接頭辞と同じ標的となる有害な命令を共有できることを鍵となる観察によって動機づけたものである。
- 参考スコア(独自算出の注目度): 14.455918139708695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suffix jailbreak attacks serve as a systematic method for red-teaming Large Language Models (LLMs) but suffer from prohibitive computational costs, as a large number of candidate suffixes need to be evaluated before identifying a jailbreak suffix. This paper presents Prefix-Shared KV Cache (PSKV), a plug-and-play inference optimization technique tailored for jailbreak suffix generation. Our method is motivated by a key observation that when performing suffix jailbreaking, while a large number of candidate prompts need to be evaluated, they share the same targeted harmful instruction as the prefix. Therefore, instead of performing redundant inference on the duplicated prefix, PSKV maintains a single KV cache for this prefix and shares it with every candidate prompt, enabling the parallel inference of diverse suffixes with minimal memory overhead. This design enables more aggressive batching strategies that would otherwise be limited by memory constraints. Extensive experiments on six widely used suffix attacks across five widely deployed LLMs demonstrate that PSKV reduces inference time by 40\% and peak memory usage by 50\%, while maintaining the original Attack Success Rate (ASR). The code has been submitted and will be released publicly.
- Abstract(参考訳): サフィックスジェイルブレイク攻撃は、大規模言語モデル(LLM)をリピートする体系的な方法として機能するが、多くの候補サフィックスをジェイルブレイクサフィックスを特定する前に評価する必要があるため、計算コストが制限される。
本稿では,jailbreak suffix 生成に適したプラグアンドプレイ推論最適化手法である Prefix-Shared KV Cache (PSKV) を提案する。
本手法は,サフィックスジェイルブレーキングを行う場合,多数の候補のプロンプトを評価する必要がある一方で,接頭辞と同じ標的となる有害な命令を共有できることを鍵となる観察によって動機づけたものである。
したがって、重複したプレフィックスに対して冗長な推論を行う代わりに、PSKVはこのプレフィックスに対して単一のKVキャッシュを保持し、すべての候補プロンプトと共有し、メモリオーバーヘッドを最小限にした様々なサフィックスの並列推論を可能にする。
この設計により、メモリ制限によって制限されるような、より積極的なバッチ戦略が可能になる。
5つの LLM で広く利用されている6つの接尾辞攻撃に対する大規模な実験により、PSKV は推論時間を 40 % 削減し、ピークメモリ使用量を 50 % 削減し、元のアタック成功率 (ASR) を維持した。
コードは提出され、公開されます。
関連論文リスト
- TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking [52.72486831074384]
サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
論文 参考訳(メタデータ) (2026-02-06T11:43:56Z) - Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-08-20T17:03:32Z) - Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - AdvPrefix: An Objective for Nuanced LLM Jailbreaks [49.00028107148938]
AdvPrefixは、最適化が容易でありながら、モデルの振舞いをより微妙に制御できる新しい目的である。
我々の目的はモデル依存プレフィックスを利用しており、高いプリフィル攻撃の成功率と低い負のログ類似度という2つの基準に基づいて自動的に選択される。
AdvPrefixは、既存のjailbreak攻撃にシームレスに統合して、パフォーマンスを無償で改善することができる。
論文 参考訳(メタデータ) (2024-12-13T18:00:57Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models [19.711954415373125]
大規模言語モデル(LLM)に対するセキュリティ上の懸念は最近エスカレートされ、個別のプロンプトにおけるジェイルブレイクの試みを阻止することに焦点が当てられている。
本研究では,LSM入力に対する直接攻撃を行うための新しいチャネルを提案する。
この対策として,CLIPというシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T20:53:00Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。