論文の概要: Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization
- arxiv url: http://arxiv.org/abs/2405.09113v1
- Date: Wed, 15 May 2024 06:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:16:04.847698
- Title: Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization
- Title(参考訳): 適応Dense-to-Sparse Constrained OptimizationによるLLMジェイルブレークの効率化
- Authors: Kai Hu, Weichen Yu, Tianjun Yao, Xiang Li, Wenhe Liu, Lijun Yu, Yining Li, Kai Chen, Zhiqiang Shen, Matt Fredrikson,
- Abstract要約: 大規模言語モデル(LLM)は、有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすい。
本稿では,新しいトークンレベル攻撃手法であるAdaptive-to-Sparse Constrained Optimization (ADC)を提案する。
- 参考スコア(独自算出の注目度): 46.98249466236357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research indicates that large language models (LLMs) are susceptible to jailbreaking attacks that can generate harmful content. This paper introduces a novel token-level attack method, Adaptive Dense-to-Sparse Constrained Optimization (ADC), which effectively jailbreaks several open-source LLMs. Our approach relaxes the discrete jailbreak optimization into a continuous optimization and progressively increases the sparsity of the optimizing vectors. Consequently, our method effectively bridges the gap between discrete and continuous space optimization. Experimental results demonstrate that our method is more effective and efficient than existing token-level methods. On Harmbench, our method achieves state of the art attack success rate on seven out of eight LLMs. Code will be made available. Trigger Warning: This paper contains model behavior that can be offensive in nature.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)が有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすいことが示されている。
本稿では,新しいトークンレベル攻撃手法であるAdaptive Dense-to-Sparse Constrained Optimization (ADC)を提案する。
我々の手法は、離散ジェイルブレイク最適化を連続的な最適化に緩和し、最適化ベクトルの間隔を徐々に増加させる。
その結果,離散空間最適化と連続空間最適化のギャップを効果的に埋めることができた。
実験により,本手法は既存のトークンレベル手法よりも効率的かつ効率的であることが確認された。
Harmbenchでは,8つのLSMのうち7つに対して,最先端の攻撃成功率を達成する。
コードは利用可能になる。
トリガー警告(Trigger Warning): 本論文は、自然界で攻撃的なモデル行動を含む。
関連論文リスト
- GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,GASP(Generative Adversarial Suffix Prompter)を提案する。
実験の結果、GASPは自然な脱獄プロンプトを生成し、攻撃成功率を大幅に改善し、トレーニング時間を短縮し、推論速度を加速できることがわかった。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - Adversarial Attacks on Large Language Models Using Regularized Relaxation [1.042748558542389]
大規模言語モデル(LLM)は、多くの実用的な用途に使われている。
敵攻撃法は、これらの脆弱性を研究し、理解するために広く使われている。
本稿では,正規化勾配を連続最適化法で活用することにより,これらの制限を克服する新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T21:01:45Z) - Functional Homotopy: Smoothing Discrete Optimization via Continuous Parameters for LLM Jailbreak Attacks [24.935016443423233]
本研究では,機能的ホモトピー法と呼ばれる新しい最適化手法を提案する。
一連の簡単な最適化問題を構築することにより、確立されたホモトピー法から導かれる原理を用いて、これらの問題を反復的に解決する。
この手法を大規模言語モデル(LLM)に対するジェイルブレイク攻撃合成に適用し,既存の手法よりも20%~30%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-10-05T17:22:39Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning [69.95292905263393]
我々は,勾配に基づく最適化と大規模言語モデル(MsLL)が相互補完的であることを示し,協調的な最適化手法を提案する。
私たちのコードはhttps://www.guozix.com/guozix/LLM-catalystでリリースされています。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。