論文の概要: Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2410.15362v1
- Date: Sun, 20 Oct 2024 11:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:41.050809
- Title: Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models
- Title(参考訳): Faster-GCG: 適応型大規模言語モデルに対する効率的な離散最適化ジェイルブレイク攻撃
- Authors: Xiao Li, Zhuhong Li, Qiongxiu Li, Bingze Lee, Jinghao Cui, Xiaolin Hu,
- Abstract要約: 本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
- 参考スコア(独自算出の注目度): 16.938267820586024
- License:
- Abstract: Aligned Large Language Models (LLMs) have demonstrated remarkable performance across various tasks. However, LLMs remain susceptible to jailbreak adversarial attacks, where adversaries manipulate prompts to elicit malicious responses that aligned LLMs should have avoided. Identifying these vulnerabilities is crucial for understanding the inherent weaknesses of LLMs and preventing their potential misuse. One pioneering work in jailbreaking is the GCG attack, a discrete token optimization algorithm that seeks to find a suffix capable of jailbreaking aligned LLMs. Despite the success of GCG, we find it suboptimal, requiring significantly large computational costs, and the achieved jailbreaking performance is limited. In this work, we propose Faster-GCG, an efficient adversarial jailbreak method by delving deep into the design of GCG. Experiments demonstrate that Faster-GCG can surpass the original GCG with only 1/10 of the computational cost, achieving significantly higher attack success rates on various open-source aligned LLMs. In addition, We demonstrate that Faster-GCG exhibits improved attack transferability when testing on closed-sourced LLMs such as ChatGPT.
- Abstract(参考訳): 調整された大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
しかし、LLMは相応しいLSMが避けるべき悪意のある応答を誘導するプロンプトを敵が操作する、ジェイルブレイクの敵攻撃の影響を受けやすいままである。
これらの脆弱性を特定することは、LSMの本質的な弱点を理解し、それらの潜在的な誤用を防ぐために重要である。
ジェイルブレイクにおける先駆的な作業のひとつがGCGアタック(GCG attack)である。
GCGの成功にもかかわらず、非常に大きな計算コストが必要であり、達成されたジェイルブレイク性能は限られている。
本稿では,GCGの設計を深く掘り下げることにより,効率的な対向ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができ、様々なオープンソースのLCMに対する攻撃成功率を著しく向上させることができることが示された。
さらに,ChatGPT などのクローズドソース LLM 上でのテストでは,高速GCG による攻撃伝達性の向上が示されている。
関連論文リスト
- AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts [10.536276489213497]
生成モデルは、有害なクエリに対して、すばやく多数のカスタマイズ可能なジベリの逆接接尾辞を生成することができる。
我々はAmpleGCG-Plusを導入した。
我々はGPT-4と同じ速度で新しいGPT-4oシリーズをジェイルブレイクし、最近提案されたサーキットブレーカー防御に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-10-29T15:40:07Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation [42.797865918373326]
本稿では,トランスフォーマーを用いた大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
本稿では,ジェイルブレイクを容易にするために,モデルの注意点を操作する拡張手法を提案する。
我々の戦略はまた、目に見えない有害な目標とブラックボックスのLSMの両方に対して堅牢な攻撃伝達性を示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:09Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs [11.094625711201648]
GCGcitepzou2023Universalは、離散トークン最適化アルゴリズムを提案し、単一のサフィックスを最低損失で選択し、ジェイルブレイクアライメントされたLCMを成功させる。
本研究では,サフィックスをトレーニングデータとして活用し,有害なクエリを与えられたサフィックスの分布をキャプチャするAmpleGCGという生成モデルを学習する。
AmpleGCGモデルは、たった4秒で1つの有害なクエリに対して200の逆サフィックスを生成することができる。
論文 参考訳(メタデータ) (2024-04-11T17:05:50Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。