論文の概要: AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts
- arxiv url: http://arxiv.org/abs/2410.22143v1
- Date: Tue, 29 Oct 2024 15:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:56.857372
- Title: AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts
- Title(参考訳): AmpleGCG-Plus: 低い試みにおける高い成功率を有する脱獄LDMに対する逆接接尾辞の強力な生成モデル
- Authors: Vishal Kumar, Zeyi Liao, Jaylen Jones, Huan Sun,
- Abstract要約: 生成モデルは、有害なクエリに対して、すばやく多数のカスタマイズ可能なジベリの逆接接尾辞を生成することができる。
我々はAmpleGCG-Plusを導入した。
我々はGPT-4と同じ速度で新しいGPT-4oシリーズをジェイルブレイクし、最近提案されたサーキットブレーカー防御に対する脆弱性を明らかにする。
- 参考スコア(独自算出の注目度): 10.536276489213497
- License:
- Abstract: Although large language models (LLMs) are typically aligned, they remain vulnerable to jailbreaking through either carefully crafted prompts in natural language or, interestingly, gibberish adversarial suffixes. However, gibberish tokens have received relatively less attention despite their success in attacking aligned LLMs. Recent work, AmpleGCG~\citep{liao2024amplegcg}, demonstrates that a generative model can quickly produce numerous customizable gibberish adversarial suffixes for any harmful query, exposing a range of alignment gaps in out-of-distribution (OOD) language spaces. To bring more attention to this area, we introduce AmpleGCG-Plus, an enhanced version that achieves better performance in fewer attempts. Through a series of exploratory experiments, we identify several training strategies to improve the learning of gibberish suffixes. Our results, verified under a strict evaluation setting, show that it outperforms AmpleGCG on both open-weight and closed-source models, achieving increases in attack success rate (ASR) of up to 17\% in the white-box setting against Llama-2-7B-chat, and more than tripling ASR in the black-box setting against GPT-4. Notably, AmpleGCG-Plus jailbreaks the newer GPT-4o series of models at similar rates to GPT-4, and, uncovers vulnerabilities against the recently proposed circuit breakers defense. We publicly release AmpleGCG-Plus along with our collected training datasets.
- Abstract(参考訳): 大型言語モデル(LLM)は概して整列しているが、自然言語で慎重に作り上げられたプロンプトや、興味深いことに、ジブベリの敵対的な接尾辞を通じてジェイルブレイクに弱いままである。
しかし、アライメントLDMを攻撃したにもかかわらず、ジブベリのトークンは比較的注目を集めていない。
最近の研究である AmpleGCG~\citep{liao2024amplegcg} は、生成モデルは、有害なクエリに対して、多くのカスタマイズ可能なジブベリの逆サフィックスを迅速に生成し、アウト・オブ・ディストリビューション(OOD)言語空間における様々なアライメントギャップを露呈することを示した。
この領域に注意を向けるために、我々はAmpleGCG-Plusを導入した。
一連の探索実験を通じて,ジブベリ接尾辞の学習を改善するためのいくつかの訓練戦略を同定した。
その結果,オープンおよびクローズドソースモデルにおいてAmpleGCGよりも優れており,Llama-2-7B-chatに対するホワイトボックス設定では最大17倍の攻撃成功率(ASR)が増加し,GPT-4に対するブラックボックス設定ではASRが3倍になった。
特に、AmpleGCG-Plusは、新しいGPT-4oシリーズをGPT-4と同様の速度で破壊し、最近提案されたサーキットブレーカー防衛に対する脆弱性を明らかにする。
収集したトレーニングデータセットとともに、AmpleGCG-Plusを公開しています。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models [16.938267820586024]
本稿では,GCGの設計を深く掘り下げて,効率の良い逆ジェイルブレイク法であるFaster-GCGを提案する。
実験により、高速GCGは計算コストのたった1/10で元のGCGを超えることができることが示された。
論文 参考訳(メタデータ) (2024-10-20T11:27:41Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation [42.797865918373326]
本稿では,トランスフォーマーを用いた大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
本稿では,ジェイルブレイクを容易にするために,モデルの注意点を操作する拡張手法を提案する。
我々の戦略はまた、目に見えない有害な目標とブラックボックスのLSMの両方に対して堅牢な攻撃伝達性を示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:09Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs [11.094625711201648]
GCGcitepzou2023Universalは、離散トークン最適化アルゴリズムを提案し、単一のサフィックスを最低損失で選択し、ジェイルブレイクアライメントされたLCMを成功させる。
本研究では,サフィックスをトレーニングデータとして活用し,有害なクエリを与えられたサフィックスの分布をキャプチャするAmpleGCGという生成モデルを学習する。
AmpleGCGモデルは、たった4秒で1つの有害なクエリに対して200の逆サフィックスを生成することができる。
論文 参考訳(メタデータ) (2024-04-11T17:05:50Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。