論文の概要: Mask-GCG: Are All Tokens in Adversarial Suffixes Necessary for Jailbreak Attacks?
- arxiv url: http://arxiv.org/abs/2509.06350v1
- Date: Mon, 08 Sep 2025 05:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.985217
- Title: Mask-GCG: Are All Tokens in Adversarial Suffixes Necessary for Jailbreak Attacks?
- Title(参考訳): Mask-GCG: ジェイルブレイク攻撃には、敵の協力が必要か?
- Authors: Junjie Mu, Zonghao Ying, Zhekui Fan, Zonglei Jing, Yaoyuan Zhang, Zhengmin Yu, Wenxin Zhang, Quanchen Zou, Xiangzheng Zhang,
- Abstract要約: 本研究では,サフィックス内の影響のあるトークンを識別するために,学習可能なトークンマスキングを利用するプラグアンドプレイ方式であるMask-GCGを提案する。
本手法は,高インパクト位置におけるトークンの更新確率を高めつつ,低インパクト位置でのトークンのプルーニングを行う。
- 参考スコア(独自算出の注目度): 3.5954282637912787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreak attacks on Large Language Models (LLMs) have demonstrated various successful methods whereby attackers manipulate models into generating harmful responses that they are designed to avoid. Among these, Greedy Coordinate Gradient (GCG) has emerged as a general and effective approach that optimizes the tokens in a suffix to generate jailbreakable prompts. While several improved variants of GCG have been proposed, they all rely on fixed-length suffixes. However, the potential redundancy within these suffixes remains unexplored. In this work, we propose Mask-GCG, a plug-and-play method that employs learnable token masking to identify impactful tokens within the suffix. Our approach increases the update probability for tokens at high-impact positions while pruning those at low-impact positions. This pruning not only reduces redundancy but also decreases the size of the gradient space, thereby lowering computational overhead and shortening the time required to achieve successful attacks compared to GCG. We evaluate Mask-GCG by applying it to the original GCG and several improved variants. Experimental results show that most tokens in the suffix contribute significantly to attack success, and pruning a minority of low-impact tokens does not affect the loss values or compromise the attack success rate (ASR), thereby revealing token redundancy in LLM prompts. Our findings provide insights for developing efficient and interpretable LLMs from the perspective of jailbreak attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するジェイルブレイク攻撃は、攻撃者がモデルを操作して回避するために設計された有害な応答を発生させる、様々な成功方法を示している。
このうち、Greedy Coordinate Gradient(GCG)は、接尾辞中のトークンを最適化してジェイルブレイク可能なプロンプトを生成する汎用的で効果的なアプローチとして登場した。
いくつかの改良されたGCGが提案されているが、それらはすべて固定長の接尾辞に依存している。
しかし、これらの接尾辞の潜在的な冗長性は未解明のままである。
本研究では,サフィックス内のインパクトのあるトークンを識別するために,学習可能なトークンマスキングを利用するプラグアンドプレイ方式であるMask-GCGを提案する。
本手法は,高インパクト位置におけるトークンの更新確率を高めつつ,低インパクト位置でのトークンのプルーニングを行う。
このプルーニングは冗長性を低下させるだけでなく、勾配空間のサイズを減少させ、計算オーバーヘッドを低減させ、GCGと比較して攻撃を成功させるのに必要な時間を短縮する。
元のGCGといくつかの改良された変種に適用し,Mask-GCGを評価した。
実験の結果, 接尾辞のほとんどのトークンが攻撃成功に大きく寄与し, 少数の低インパクトトークンを切断しても損失値に影響せず, 攻撃成功率(ASR)を損なうことなく, LLMプロンプトにおけるトークン冗長性を明らかにすることがわかった。
本研究は, 脱獄攻撃の観点から, 効率的かつ解釈可能なLDMを開発するための知見を提供する。
関連論文リスト
- Geneshift: Impact of different scenario shift on Jailbreaking LLM [55.26229741296822]
我々は、遺伝的アルゴリズムを用いてシナリオシフトを最適化し、GeneShiftと呼ばれるブラックボックスジェイルブレイク攻撃を提案する。
GeneShiftはJailbreakの成功率を0%から60%に向上させるが、直接のプロンプトだけでは失敗する。
論文 参考訳(メタデータ) (2025-04-10T20:02:35Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.83476701024932]
Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。
本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。
AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文 参考訳(メタデータ) (2024-12-11T18:37:56Z) - Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文 参考訳(メタデータ) (2024-10-20T11:27:41Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Boosting Jailbreak Attack with Momentum [5.047814998088682]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfAccelerated GbfCG (textbfMAC)アタックは、運動量項を勾配に統合し、逆のプロンプトにおけるランダムなトークンの探索を強化し安定化させる。
論文 参考訳(メタデータ) (2024-05-02T12:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。