論文の概要: Improved Generation of Adversarial Examples Against Safety-aligned LLMs
- arxiv url: http://arxiv.org/abs/2405.20778v1
- Date: Tue, 28 May 2024 06:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 14:37:39.497967
- Title: Improved Generation of Adversarial Examples Against Safety-aligned LLMs
- Title(参考訳): 安全対応型LDMに対する逆例の生成改善
- Authors: Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen,
- Abstract要約: 勾配に基づく手法を用いて生成された敵対的プロンプトは、自動的にジェイルブレイク攻撃を行う際、優れた性能を示す。
本論文は,ブラックボックス画像分類モデルを攻撃するために提案されたトランスファーベースの攻撃にインスパイアされたイノベーションを活用する。
- 参考スコア(独自算出の注目度): 72.38072942860309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite numerous efforts to ensure large language models (LLMs) adhere to safety standards and produce harmless content, some successes have been achieved in bypassing these restrictions, known as jailbreak attacks against LLMs. Adversarial prompts generated using gradient-based methods exhibit outstanding performance in performing jailbreak attacks automatically. Nevertheless, due to the discrete nature of texts, the input gradient of LLMs struggles to precisely reflect the magnitude of loss change that results from token replacements in the prompt, leading to limited attack success rates against safety-aligned LLMs, even in the white-box setting. In this paper, we explore a new perspective on this problem, suggesting that it can be alleviated by leveraging innovations inspired in transfer-based attacks that were originally proposed for attacking black-box image classification models. For the first time, we appropriate the ideologies of effective methods among these transfer-based attacks, i.e., Skip Gradient Method and Intermediate Level Attack, for improving the effectiveness of automatically generated adversarial examples against white-box LLMs. With appropriate adaptations, we inject these ideologies into gradient-based adversarial prompt generation processes and achieve significant performance gains without introducing obvious computational cost. Meanwhile, by discussing mechanisms behind the gains, new insights are drawn, and proper combinations of these methods are also developed. Our empirical results show that the developed combination achieves >30% absolute increase in attack success rates compared with GCG for attacking the Llama-2-7B-Chat model on AdvBench.
- Abstract(参考訳): 大きな言語モデル(LLM)が安全基準に準拠し、無害なコンテンツを生み出すことを保証するための多くの努力にもかかわらず、LLMに対するジェイルブレイク攻撃(英語版)として知られるこれらの制限を回避し、いくつかの成功は達成されている。
勾配に基づく手法を用いて生成された敵対的プロンプトは、自動的にジェイルブレイク攻撃を行う際、優れた性能を示す。
しかしながら、テキストの離散的な性質のため、LLMの入力勾配はトークンの交換によって生じる損失の程度を正確に反映するのに苦労し、ホワイトボックスの設定でさえ、安全に整合したLLMに対する攻撃の成功率は制限された。
本稿では,ブラックボックス画像分類モデルに対する攻撃として提案されたトランスファーベース攻撃に触発されたイノベーションを活用することで,この問題に対する新たな視点を探求する。
そこで我々は,これらの移動型攻撃,すなわちスキップグラディエント・メソッドと中間レベル・アタックの効果的な手法のイデオロギーを,ホワイトボックスのLDMに対して自動生成された敵例の有効性を改善するために,初めて適用した。
適切な適応により、これらのイデオロギーを勾配に基づく逆数生成プロセスに注入し、明らかな計算コストを伴わずに大幅な性能向上を達成する。
一方、利得の背後にあるメカニズムを議論することで、新たな洞察を導き、これらの手法の適切な組み合わせも開発されている。
実験の結果,AdvBench上でのLlama-2-7B-Chatモデルに対するGCGと比較して,開発した組み合わせは30%の絶対的な攻撃成功率向上を実現していることがわかった。
関連論文リスト
- Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。
わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。
勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文 参考訳(メタデータ) (2024-12-18T10:49:41Z) - Exploiting the Index Gradients for Optimization-Based Jailbreaking on Large Language Models [16.83476701024932]
Greedy Coordinate Gradient (GCG) 法は, 脱獄状態のLDMを自動生成する能力を示した。
本稿では、接尾辞トークンの勾配情報を利用して間接効果に対処するモデル攻撃勾配指数GCG(MAGIC)を提案する。
AdvBenchの実験では、MAGICは最大1.5倍のスピードアップを実現し、ASR(Attack Success Rates)を同等以上維持している。
論文 参考訳(メタデータ) (2024-12-11T18:37:56Z) - LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。
LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文 参考訳(メタデータ) (2024-11-13T18:44:30Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。