論文の概要: Improved Generation of Adversarial Examples Against Safety-aligned LLMs
- arxiv url: http://arxiv.org/abs/2405.20778v2
- Date: Fri, 01 Nov 2024 09:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:28.815323
- Title: Improved Generation of Adversarial Examples Against Safety-aligned LLMs
- Title(参考訳): 安全対応型LDMに対する逆例の生成改善
- Authors: Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen,
- Abstract要約: 勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
- 参考スコア(独自算出の注目度): 72.38072942860309
- License:
- Abstract: Adversarial prompts generated using gradient-based methods exhibit outstanding performance in performing automatic jailbreak attacks against safety-aligned LLMs. Nevertheless, due to the discrete nature of texts, the input gradient of LLMs struggles to precisely reflect the magnitude of loss change that results from token replacements in the prompt, leading to limited attack success rates against safety-aligned LLMs, even in the white-box setting. In this paper, we explore a new perspective on this problem, suggesting that it can be alleviated by leveraging innovations inspired in transfer-based attacks that were originally proposed for attacking black-box image classification models. For the first time, we appropriate the ideologies of effective methods among these transfer-based attacks, i.e., Skip Gradient Method and Intermediate Level Attack, into gradient-based adversarial prompt generation and achieve significant performance gains without introducing obvious computational cost. Meanwhile, by discussing mechanisms behind the gains, new insights are drawn, and proper combinations of these methods are also developed. Our empirical results show that 87% of the query-specific adversarial suffixes generated by the developed combination can induce Llama-2-7B-Chat to produce the output that exactly matches the target string on AdvBench. This match rate is 33% higher than that of a very strong baseline known as GCG, demonstrating advanced discrete optimization for adversarial prompt generation against LLMs. In addition, without introducing obvious cost, the combination achieves >30% absolute increase in attack success rates compared with GCG when generating both query-specific (38% -> 68%) and universal adversarial prompts (26.68% -> 60.32%) for attacking the Llama-2-7B-Chat model on AdvBench. Code at: https://github.com/qizhangli/Gradient-based-Jailbreak-Attacks.
- Abstract(参考訳): 勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
しかしながら、テキストの離散的な性質のため、LLMの入力勾配はトークンの交換によって生じる損失の程度を正確に反映するのに苦労し、ホワイトボックスの設定でさえ、安全に整合したLLMに対する攻撃の成功率は制限された。
本稿では,ブラックボックス画像分類モデルに対する攻撃として提案されたトランスファーベース攻撃に触発されたイノベーションを活用することで,この問題に対する新たな視点を探求する。
本研究では,これらの移動型攻撃,すなわちスキップ・グラディエント・メソッドと中間レベル・アタックの効果的な手法のイデオロギーを,勾配型逆数生成に適応させ,明らかな計算コストを伴わずに大幅な性能向上を実現する。
一方、利得の背後にあるメカニズムを議論することで、新たな洞察を導き、これらの手法の適切な組み合わせも開発されている。
実験の結果,開発した組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し,AdvBench上のターゲット文字列と正確に一致する出力を生成することがわかった。
このマッチングレートは、GCGとして知られる非常に強いベースラインよりも33%高く、LLMに対する対向的なプロンプト生成のための高度な離散最適化を示す。
さらに、クエリ固有の38% -> 68%)と、AdvBench上のLlama-2-7B-Chatモデルを攻撃するためのユニバーサルな敵プロンプト(26.68% -> 60.32%)の両方を生成する場合、この組み合わせはGCGと比較して30%以上の攻撃成功率を達成する。
コードネームはhttps://github.com/qizhangli/Gradient-based-Jailbreak-Attacks。
関連論文リスト
- Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Making Adversarial Examples More Transferable and Indistinguishable [7.885043234081768]
本稿では,高い転送性を有する不明瞭な逆例を生成する手法を提案する。
我々の最も優れた転送ベース攻撃NI-TI-DI-AITMは、89.3%の平均的な成功率で6つの古典的な防衛モデルを騙すことができる。
論文 参考訳(メタデータ) (2020-07-08T01:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。