論文の概要: AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
- arxiv url: http://arxiv.org/abs/2410.09040v1
- Date: Fri, 11 Oct 2024 17:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:32:10.620239
- Title: AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation
- Title(参考訳): AttnGCG: 注意操作によるLLMの脱獄攻撃の強化
- Authors: Zijun Wang, Haoqin Tu, Jieru Mei, Bingchen Zhao, Yisen Wang, Cihang Xie,
- Abstract要約: 本稿では,トランスフォーマーを用いた大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
本稿では,ジェイルブレイクを容易にするために,モデルの注意点を操作する拡張手法を提案する。
我々の戦略はまた、目に見えない有害な目標とブラックボックスのLSMの両方に対して堅牢な攻撃伝達性を示す。
- 参考スコア(独自算出の注目度): 42.797865918373326
- License:
- Abstract: This paper studies the vulnerabilities of transformer-based Large Language Models (LLMs) to jailbreaking attacks, focusing specifically on the optimization-based Greedy Coordinate Gradient (GCG) strategy. We first observe a positive correlation between the effectiveness of attacks and the internal behaviors of the models. For instance, attacks tend to be less effective when models pay more attention to system prompts designed to ensure LLM safety alignment. Building on this discovery, we introduce an enhanced method that manipulates models' attention scores to facilitate LLM jailbreaking, which we term AttnGCG. Empirically, AttnGCG shows consistent improvements in attack efficacy across diverse LLMs, achieving an average increase of ~7% in the Llama-2 series and ~10% in the Gemma series. Our strategy also demonstrates robust attack transferability against both unseen harmful goals and black-box LLMs like GPT-3.5 and GPT-4. Moreover, we note our attention-score visualization is more interpretable, allowing us to gain better insights into how our targeted attention manipulation facilitates more effective jailbreaking. We release the code at https://github.com/UCSC-VLAA/AttnGCG-attack.
- Abstract(参考訳): 本稿では,Greedy Coordinate Gradient(GCG)戦略を中心に,トランスフォーマーに基づく大規模言語モデル(LLM)のジェイルブレイク攻撃に対する脆弱性について検討する。
まず,攻撃の有効性とモデルの内部挙動との正の相関関係を考察する。
例えば、LLMの安全性を確保するために設計されたシステムプロンプトにモデルがより多くの注意を払っている場合、攻撃は効果が低い傾向にある。
この発見に基づいて,LLMジェイルブレイクを促進するため,モデルの注意点数を操作する拡張手法を導入し,これをAttnGCGと呼ぶ。
経験的に、AttnGCGは様々なLLMに対して一貫した攻撃効率の改善を示し、Llama-2シリーズでは平均で7%、Gemmaシリーズでは平均で約10%向上した。
また,GPT-3.5 や GPT-4 などのブラックボックス LLM に対する攻撃の堅牢性を示す。
さらに、私たちの注目スコアの可視化はより解釈可能であり、ターゲットの注意操作がより効果的なジェイルブレイクを促進する方法について、より深い洞察を得ることができます。
コードをhttps://github.com/UCSC-VLAA/AttnGCG-アタックでリリースします。
関連論文リスト
- SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
我々は、一般的なGPT-3.5/4モデルを用いて、主要なジェイルブレイク攻撃すべてに対して実証的に検証した。
これらのモデルは6つの最先端の防御性能を上回り、GPT-4ベースのSelfDefendの性能に匹敵する。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Improved Techniques for Optimization-Based Jailbreaking on Large Language Models [78.32176751215073]
Greedy Coordinate Gradient (GCG)攻撃の成功は、最適化ベースのジェイルブレイク技術の研究への関心が高まっている。
我々はGCGのような最適化ベースのジェイルブレイクにいくつかの改良(経験的)技術を提案する。
以上の結果から,GCGが最先端のジェイルブレイク攻撃より優れ,100%近い攻撃成功率を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-31T17:07:15Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成された敵対的プロンプトは、自動的にジェイルブレイク攻撃を行う際、優れた性能を示す。
本論文は,ブラックボックス画像分類モデルを攻撃するために提案されたトランスファーベースの攻撃にインスパイアされたイノベーションを活用する。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Trojan Activation Attack: Red-Teaming Large Language Models using Activation Steering for Safety-Alignment [31.24530091590395]
本研究では,大規模言語モデルの活性化層にトロイの木馬ステアリングベクトルを注入する,Trojan Activation Attack (TA2) と呼ばれる攻撃シナリオについて検討する。
実験の結果,TA2は高効率であり,攻撃効率のオーバーヘッドがほとんどあるいは全くないことがわかった。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization [98.18718484152595]
本研究は,学習段階と推論段階の両方において,目標の優先順位付けを統合することで,支援と安全性の確保という目標との本質的な対立に対処することを提案する。
我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。
論文 参考訳(メタデータ) (2023-11-15T16:42:29Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。