論文の概要: Universal Jailbreak Suffixes Are Strong Attention Hijackers
- arxiv url: http://arxiv.org/abs/2506.12880v1
- Date: Sun, 15 Jun 2025 15:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.082527
- Title: Universal Jailbreak Suffixes Are Strong Attention Hijackers
- Title(参考訳): アンソニー・ジェイルブレイクのサフィックス、ハッカーに強い注意を喚起
- Authors: Matan Ben-Tov, Mor Geva, Mahmood Sharif,
- Abstract要約: suffixベースのjailbreaks$x2013$a 言語モデルに対する強力な攻撃ファミリー。
攻撃は効率よく強化され、追加の計算コストを回避できる場合もある。
- 参考スコア(独自算出の注目度): 13.539789257433995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study suffix-based jailbreaks$\unicode{x2013}$a powerful family of attacks against large language models (LLMs) that optimize adversarial suffixes to circumvent safety alignment. Focusing on the widely used foundational GCG attack (Zou et al., 2023), we observe that suffixes vary in efficacy: some markedly more universal$\unicode{x2013}$generalizing to many unseen harmful instructions$\unicode{x2013}$than others. We first show that GCG's effectiveness is driven by a shallow, critical mechanism, built on the information flow from the adversarial suffix to the final chat template tokens before generation. Quantifying the dominance of this mechanism during generation, we find GCG irregularly and aggressively hijacks the contextualization process. Crucially, we tie hijacking to the universality phenomenon, with more universal suffixes being stronger hijackers. Subsequently, we show that these insights have practical implications: GCG universality can be efficiently enhanced (up to $\times$5 in some cases) at no additional computational cost, and can also be surgically mitigated, at least halving attack success with minimal utility loss. We release our code and data at http://github.com/matanbt/interp-jailbreak.
- Abstract(参考訳): 我々は,サフィックスベースのjailbreaks$\unicode{x2013}$a powerful family of attack against large language model (LLMs) that optimize adversarial suffixes to avoid safety alignment。
広く使われている基礎的なGCG攻撃(Zou et al , 2023)に着目して、接尾辞は有効性において異なることが分かる: 顕著に普遍的な$\unicode{x2013}$ generalizing to many unseen valuable instructions$\unicode{x2013}$than others。
最初に、GCGの有効性は、逆接接尾辞から生成前の最終チャットテンプレートトークンへの情報フローに基づいて構築された浅く重要なメカニズムによって駆動されることを示す。
生成過程におけるこの機構の優位性を定量化すると、GCGは不規則かつ積極的に文脈化プロセスをハイジャックする。
重要なのは、ヒジャックは普遍性現象と結びついており、より普遍的なサフィックスはより強力なヒジャックである。
GCGの普遍性は、追加の計算コストなしで効率的に(場合によっては5ドルまで)向上することができ、また、手術的に緩和でき、少なくとも実用的損失を最小限に抑えることができる。
コードとデータはhttp://github.com/matanbt/interp-jailbreak.comで公開しています。
関連論文リスト
- AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts [10.536276489213497]
生成モデルは、有害なクエリに対して、すばやく多数のカスタマイズ可能なジベリの逆接接尾辞を生成することができる。
我々はAmpleGCG-Plusを導入した。
我々はGPT-4と同じ速度で新しいGPT-4oシリーズをジェイルブレイクし、最近提案されたサーキットブレーカー防御に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-10-29T15:40:07Z) - Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文 参考訳(メタデータ) (2024-10-20T11:27:41Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - Boosting Jailbreak Attack with Momentum [5.047814998088682]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfAccelerated GbfCG (textbfMAC)アタックは、運動量項を勾配に統合し、逆のプロンプトにおけるランダムなトークンの探索を強化し安定化させる。
論文 参考訳(メタデータ) (2024-05-02T12:18:14Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Understanding and Improving Graph Injection Attack by Promoting
Unnoticeability [69.3530705476563]
グラフインジェクションアタック(GIA)はグラフニューラルネットワーク(GNN)の実用的な攻撃シナリオである
グラフ修正攻撃 (GMA) と比較したところ, GIA は比較的高い柔軟性のため, GMA よりも明らかに有害であることがわかった。
我々は,GAAがホモフィリを維持することを強制する,新しい制約-ホモフィリな無意味性を導入し,そのインスタンス化のためにハーモニアス・アドバイサリアル・オブジェクト(HAO)を提案する。
論文 参考訳(メタデータ) (2022-02-16T13:41:39Z) - Adversarial Attack on Large Scale Graph [58.741365277995044]
近年の研究では、グラフニューラルネットワーク(GNN)は堅牢性の欠如により摂動に弱いことが示されている。
現在、GNN攻撃に関するほとんどの研究は、主に攻撃を誘導し、優れたパフォーマンスを達成するために勾配情報を使用している。
主な理由は、攻撃にグラフ全体を使わなければならないため、データスケールが大きくなるにつれて、時間と空間の複雑さが増大するからです。
本稿では,グラフデータに対する敵攻撃の影響を測定するために,DAC(Degree Assortativity Change)という実用的な指標を提案する。
論文 参考訳(メタデータ) (2020-09-08T02:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。