論文の概要: Boosting Jailbreak Attack with Momentum
- arxiv url: http://arxiv.org/abs/2405.01229v1
- Date: Thu, 2 May 2024 12:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 16:44:25.378775
- Title: Boosting Jailbreak Attack with Momentum
- Title(参考訳): Momentumによるジェイルブレイク攻撃の強化
- Authors: Yihao Zhang, Zeming Wei,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfMomentum textbfAccelerated GtextbfCG(textbfMAC)攻撃を導入する。
- 参考スコア(独自算出の注目度): 5.047814998088682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across diverse tasks, yet they remain vulnerable to adversarial attacks, notably the well-documented \textit{jailbreak} attack. Recently, the Greedy Coordinate Gradient (GCG) attack has demonstrated efficacy in exploiting this vulnerability by optimizing adversarial prompts through a combination of gradient heuristics and greedy search. However, the efficiency of this attack has become a bottleneck in the attacking process. To mitigate this limitation, in this paper we rethink the generation of adversarial prompts through an optimization lens, aiming to stabilize the optimization process and harness more heuristic insights from previous iterations. Specifically, we introduce the \textbf{M}omentum \textbf{A}ccelerated G\textbf{C}G (\textbf{MAC}) attack, which incorporates a momentum term into the gradient heuristic. Experimental results showcase the notable enhancement achieved by MAP in gradient-based attacks on aligned language models. Our code is available at https://github.com/weizeming/momentum-attack-llm.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、敵攻撃、特に文書化された 'textit{jailbreak} 攻撃に弱いままである。
近年、Greedy Coordinate Gradient (GCG) 攻撃は、勾配ヒューリスティックスとグリーディサーチを組み合わせることで、敵のプロンプトを最適化することで、この脆弱性を悪用する効果を実証している。
しかし、この攻撃の効率は攻撃プロセスのボトルネックになっている。
この制限を緩和するために,本論文では,最適化レンズによる逆方向のプロンプトの生成を再考し,最適化プロセスの安定化と,以前のイテレーションからのよりヒューリスティックな洞察を活用することを目的とした。
具体的には、運動量項を勾配ヒューリスティックに組み込んだ G\textbf{C}G (\textbf{MAC}) 攻撃を導入する。
実験結果から,MAPによる言語モデルへの勾配に基づく攻撃の顕著な向上が示された。
私たちのコードはhttps://github.com/weizeming/momentum- attack-llm.comで利用可能です。
関連論文リスト
- Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Attacking Large Language Models with Projected Gradient Descent [12.130638442765857]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。
我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文 参考訳(メタデータ) (2024-02-14T13:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。