論文の概要: Improved Techniques for Optimization-Based Jailbreaking on Large Language Models
- arxiv url: http://arxiv.org/abs/2405.21018v1
- Date: Fri, 31 May 2024 17:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:29:24.348962
- Title: Improved Techniques for Optimization-Based Jailbreaking on Large Language Models
- Title(参考訳): 大規模言語モデルを用いた最適化に基づくジェイルブレイク手法の改良
- Authors: Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu, Yang Liu, Xiaochun Cao, Min Lin,
- Abstract要約: Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
改良された技術は、GCGが最先端のジェイルブレイク攻撃より優れ、100%近い攻撃成功率を達成するのに役立ちます。
- 参考スコア(独自算出の注目度): 78.32176751215073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the Greedy Coordinate Gradient (GCG) attack's success has led to a growing interest in the study of optimization-based jailbreaking techniques. Although GCG is a significant milestone, its attacking efficiency remains unsatisfactory. In this paper, we present several improved (empirical) techniques for optimization-based jailbreaks like GCG. We first observe that the single target template of "Sure" largely limits the attacking performance of GCG; given this, we propose to apply diverse target templates containing harmful self-suggestion and/or guidance to mislead LLMs. Besides, from the optimization aspects, we propose an automatic multi-coordinate updating strategy in GCG (i.e., adaptively deciding how many tokens to replace in each step) to accelerate convergence, as well as tricks like easy-to-hard initialisation. Then, we combine these improved technologies to develop an efficient jailbreak method, dubbed $\mathcal{I}$-GCG. In our experiments, we evaluate on a series of benchmarks (such as NeurIPS 2023 Red Teaming Track). The results demonstrate that our improved techniques can help GCG outperform state-of-the-art jailbreaking attacks and achieve nearly 100% attack success rate. The code is released at https://github.com/jiaxiaojunQAQ/I-GCG.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に開発され、その普及の鍵となるコンポーネントは安全性に関するアライメントである。
これらの取り組みの中で、Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化に基づくジェイルブレイク技術の研究への関心を高めている。
GCGは重要なマイルストーンであるが、攻撃効率は相変わらず不満足である。
本稿では,GCGのような最適化ベースのジェイルブレイクに対して,いくつかの改良(経験的)手法を提案する。
我々はまず,GCGの攻撃性能を「Sure」の1つのターゲットテンプレートで大幅に制限することから,有害な自己提案を含む多種多様なターゲットテンプレートをLLMのミスリードに応用することを提案する。
さらに,最適化面からGCGにおける自動マルチコーディネート更新戦略(つまり,各ステップで何個のトークンを交換するかを適応的に決定する)を提案する。
そして、これらの改良された技術を組み合わせて、$\mathcal{I}$-GCGと呼ばれる効率的なジェイルブレイク法を開発する。
実験では,一連のベンチマーク(NeurIPS 2023 Red Teaming Trackなど)を評価した。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
コードはhttps://github.com/jiaxiaojunQAQ/I-GCGで公開されている。
関連論文リスト
- AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts [10.536276489213497]
生成モデルは、有害なクエリに対して、すばやく多数のカスタマイズ可能なジベリの逆接接尾辞を生成することができる。
我々はAmpleGCG-Plusを導入した。
我々はGPT-4と同じ速度で新しいGPT-4oシリーズをジェイルブレイクし、最近提案されたサーキットブレーカー防御に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-10-29T15:40:07Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文 参考訳(メタデータ) (2024-10-20T11:27:41Z) - AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation [42.797865918373326]
本稿では,トランスフォーマーを用いた大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
本稿では,ジェイルブレイクを容易にするために,モデルの注意点を操作する拡張手法を提案する。
我々の戦略はまた、目に見えない有害な目標とブラックボックスのLSMの両方に対して堅牢な攻撃伝達性を示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:09Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Boosting Jailbreak Attack with Momentum [5.047814998088682]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfMomentum textbfAccelerated GtextbfCG(textbfMAC)攻撃を導入する。
論文 参考訳(メタデータ) (2024-05-02T12:18:14Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。