論文の概要: Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
- arxiv url: http://arxiv.org/abs/2404.02151v3
- Date: Mon, 07 Oct 2024 16:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:55.829546
- Title: Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks
- Title(参考訳): 簡易アダプティブアタックによる安全に配慮したLLMの脱獄
- Authors: Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion,
- Abstract要約: 近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 38.25697806663553
- License:
- Abstract: We show that even the most recent safety-aligned LLMs are not robust to simple adaptive jailbreaking attacks. First, we demonstrate how to successfully leverage access to logprobs for jailbreaking: we initially design an adversarial prompt template (sometimes adapted to the target LLM), and then we apply random search on a suffix to maximize a target logprob (e.g., of the token "Sure"), potentially with multiple restarts. In this way, we achieve 100% attack success rate -- according to GPT-4 as a judge -- on Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, and R2D2 from HarmBench that was adversarially trained against the GCG attack. We also show how to jailbreak all Claude models -- that do not expose logprobs -- via either a transfer or prefilling attack with a 100% success rate. In addition, we show how to use random search on a restricted set of tokens for finding trojan strings in poisoned models -- a task that shares many similarities with jailbreaking -- which is the algorithm that brought us the first place in the SaTML'24 Trojan Detection Competition. The common theme behind these attacks is that adaptivity is crucial: different models are vulnerable to different prompting templates (e.g., R2D2 is very sensitive to in-context learning prompts), some models have unique vulnerabilities based on their APIs (e.g., prefilling for Claude), and in some settings, it is crucial to restrict the token search space based on prior knowledge (e.g., for trojan detection). For reproducibility purposes, we provide the code, logs, and jailbreak artifacts in the JailbreakBench format at https://github.com/tml-epfl/llm-adaptive-attacks.
- Abstract(参考訳): 近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
まず、jailbreakでlogprobへのアクセスをうまく活用する方法を実証する: 最初は逆プロンプトテンプレートを設計し、次に接尾辞にランダム検索を適用して、ターゲットのlogprob(例えば、トークン"Sure")を複数再起動で最大化する。
このようにして、審査員としてのGPT-4によると、GCG攻撃に逆らって訓練されたHarmBenchのVicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat-7B/13B/70B、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4o、R2D2の攻撃成功率を100%達成した。
また、転送またはプリフィル攻撃を100%の成功率で実施することで、Crudeモデル -- ログプロブを公開していない -- をジェイルブレイクする方法も示しています。
さらに、毒殺モデル(ジェイルブレイクと多くの類似点を持つタスク)でトロイの木馬の文字列を見つけるために制限されたトークンセットをランダムに検索する方法も示しています。
異なるモデルが異なるプロンプトテンプレート(例えば、R2D2は、コンテキスト内の学習プロンプトに非常に敏感である)に対して脆弱である、いくつかのモデルは、APIに基づいたユニークな脆弱性を持っている(例えば、Claudeのプリフィル)、いくつかの設定では、事前の知識(例えば、トロイの木馬検出)に基づいてトークン検索スペースを制限することが重要である。
再現性のために、 https://github.com/tml-epfl/llm-adaptive- attacks で JailbreakBench フォーマットのコード、ログ、jailbreak アーティファクトを https://github.com/tml-epfl/llm-adaptive- attacks で提供します。
関連論文リスト
- Fluent Student-Teacher Redteaming [0.0]
我々は、Llama-2やPhi-3のような安全チューニングモデルに対する強力で流動的な攻撃を開発する。
本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。
Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
論文 参考訳(メタデータ) (2024-07-24T17:23:18Z) - Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks [89.54736699767315]
我々は、LLMの有害な知識を直接解き放つことは、脱獄攻撃から守るためのより効果的な方法になり得ると推測する。
Vicuna-7BのEmphout-of-distribution(OOD)に対する攻撃成功率(ASR)は82.6%から7.7%に低下した。
Llama2-7B-Chatは、約0.1Mの安全アライメントサンプルで微調整されているが、追加の安全システムプロンプトの下でも21.9%のASRを持つ。
論文 参考訳(メタデータ) (2024-07-03T07:14:05Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner [21.414701448926614]
本稿では,自衛隊(SelfDefend)と呼ばれる総称LDMジェイルブレイク防御フレームワークを紹介する。
本稿では,GPT-3.5が攻撃成功率(ASR)を8.97~95.74%抑制できることを示す。
また、調整したモデルが標的のGCGに対して堅牢であることや、インジェクション攻撃の迅速化を実証的に示す。
論文 参考訳(メタデータ) (2024-06-08T15:45:31Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。