Fugu-MT 論文翻訳(概要): Boosting Jailbreak Attack with Momentum

論文の概要: Boosting Jailbreak Attack with Momentum

arxiv url: http://arxiv.org/abs/2405.01229v1
Date: Thu, 2 May 2024 12:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 16:44:25.378775
Title: Boosting Jailbreak Attack with Momentum
Title（参考訳）: Momentumによるジェイルブレイク攻撃の強化
Authors: Yihao Zhang, Zeming Wei,
Abstract要約: 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。 textbfMomentum textbfAccelerated GtextbfCG(textbfMAC)攻撃を導入する。
参考スコア（独自算出の注目度）: 5.047814998088682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success across diverse tasks, yet they remain vulnerable to adversarial attacks, notably the well-documented \textit{jailbreak} attack. Recently, the Greedy Coordinate Gradient (GCG) attack has demonstrated efficacy in exploiting this vulnerability by optimizing adversarial prompts through a combination of gradient heuristics and greedy search. However, the efficiency of this attack has become a bottleneck in the attacking process. To mitigate this limitation, in this paper we rethink the generation of adversarial prompts through an optimization lens, aiming to stabilize the optimization process and harness more heuristic insights from previous iterations. Specifically, we introduce the \textbf{M}omentum \textbf{A}ccelerated G\textbf{C}G (\textbf{MAC}) attack, which incorporates a momentum term into the gradient heuristic. Experimental results showcase the notable enhancement achieved by MAP in gradient-based attacks on aligned language models. Our code is available at https://github.com/weizeming/momentum-attack-llm.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、敵攻撃、特に文書化された 'textit{jailbreak} 攻撃に弱いままである。近年、Greedy Coordinate Gradient (GCG) 攻撃は、勾配ヒューリスティックスとグリーディサーチを組み合わせることで、敵のプロンプトを最適化することで、この脆弱性を悪用する効果を実証している。しかし、この攻撃の効率は攻撃プロセスのボトルネックになっている。この制限を緩和するために,本論文では,最適化レンズによる逆方向のプロンプトの生成を再考し,最適化プロセスの安定化と,以前のイテレーションからのよりヒューリスティックな洞察を活用することを目的とした。具体的には、運動量項を勾配ヒューリスティックに組み込んだ G\textbf{C}G (\textbf{MAC}) 攻撃を導入する。実験結果から,MAPによる言語モデルへの勾配に基づく攻撃の顕著な向上が示された。私たちのコードはhttps://github.com/weizeming/momentum- attack-llm.comで利用可能です。

関連論文リスト

Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses [6.736255552371404]
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
論文参考訳（メタデータ） (2025-05-21T16:43:17Z)
Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文参考訳（メタデータ） (2024-10-29T06:54:00Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文参考訳（メタデータ） (2024-10-21T05:11:19Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文参考訳（メタデータ） (2024-06-04T07:45:27Z)
Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文参考訳（メタデータ） (2024-05-31T17:07:15Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文参考訳（メタデータ） (2024-02-25T20:36:03Z)
Attacking Large Language Models with Projected Gradient Descent [12.130638442765857]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文参考訳（メタデータ） (2024-02-14T13:13:26Z)
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。 GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文参考訳（メタデータ） (2024-01-30T18:56:08Z)
Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文参考訳（メタデータ） (2022-12-30T18:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。