論文の概要: Best-of-N Jailbreaking
- arxiv url: http://arxiv.org/abs/2412.03556v1
- Date: Wed, 04 Dec 2024 18:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:14.164763
- Title: Best-of-N Jailbreaking
- Title(参考訳): Best-of-N Jailbreaking
- Authors: John Hughes, Sara Price, Aengus Lynch, Rylan Schaeffer, Fazl Barez, Sanmi Koyejo, Henry Sleight, Erik Jones, Ethan Perez, Mrinank Sharma,
- Abstract要約: Best-of-N (BoN) Jailbreakingは、単純なブラックボックスアルゴリズムで、モダリティを越えてフロンティアAIシステムをジェイルブレイクする。
BoN Jailbreakingは、クローズドソース言語モデルにおける高い攻撃成功率(ASR)を達成する。
同様に、サーキットブレーカーのような最先端のオープンソースディフェンスを回避できる。
- 参考スコア(独自算出の注目度): 24.303916598899278
- License:
- Abstract: We introduce Best-of-N (BoN) Jailbreaking, a simple black-box algorithm that jailbreaks frontier AI systems across modalities. BoN Jailbreaking works by repeatedly sampling variations of a prompt with a combination of augmentations - such as random shuffling or capitalization for textual prompts - until a harmful response is elicited. We find that BoN Jailbreaking achieves high attack success rates (ASRs) on closed-source language models, such as 89% on GPT-4o and 78% on Claude 3.5 Sonnet when sampling 10,000 augmented prompts. Further, it is similarly effective at circumventing state-of-the-art open-source defenses like circuit breakers. BoN also seamlessly extends to other modalities: it jailbreaks vision language models (VLMs) such as GPT-4o and audio language models (ALMs) like Gemini 1.5 Pro, using modality-specific augmentations. BoN reliably improves when we sample more augmented prompts. Across all modalities, ASR, as a function of the number of samples (N), empirically follows power-law-like behavior for many orders of magnitude. BoN Jailbreaking can also be composed with other black-box algorithms for even more effective attacks - combining BoN with an optimized prefix attack achieves up to a 35% increase in ASR. Overall, our work indicates that, despite their capability, language models are sensitive to seemingly innocuous changes to inputs, which attackers can exploit across modalities.
- Abstract(参考訳): Best-of-N (BoN) Jailbreakingは、単純なブラックボックスアルゴリズムで、モダリティを越えてフロンティアAIシステムをジェイルブレイクする。
BoN Jailbreakingは、有害な応答が誘発されるまで、ランダムシャッフルやテキストプロンプトの資本化など、プロンプトのバリエーションを繰り返しサンプリングすることで機能する。
例えば,GPT-4oで89%,Claude 3.5 Sonnetで78%,拡張プロンプトで1万個をサンプリングした場合,BoN Jailbreakingは,クローズドソース言語モデル上で高い攻撃成功率(ASR)を達成する。
さらに、サーキットブレーカのような最先端のオープンソースディフェンスの回避にも有効である。
BoNは、GPT-4oのような視覚言語モデル(VLM)とGemini 1.5 Proのようなオーディオ言語モデル(ALM)を、モダリティ固有の拡張を使ってジェイルブレイクする。
BoNは、より強化されたプロンプトをサンプリングすることで、確実に改善します。
すべてのモダリティにおいて、ASR はサンプル数 (N) の関数として、様々な桁のパワーローのような振る舞いを経験的に追従する。
BoN Jailbreakingは、さらに効果的な攻撃のために、他のブラックボックスアルゴリズムで構成することもできる。
全体として、我々の研究は、言語モデルはその能力にもかかわらず、一見無害な入力の変化に敏感であることを示している。
関連論文リスト
- IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。
本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。
GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文 参考訳(メタデータ) (2024-01-30T18:56:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Scalable and Transferable Black-Box Jailbreaks for Language Models via
Persona Modulation [3.9946940518047396]
ブラックボックスジェイルブレイク法としてのペルソナ変調について検討し、有害な指示に従おうとする個人性を標的モデルに操る。
本稿では,メタンフェタミンの合成,爆弾の製作,マネーロンダリングなど,ペルソナ修飾による有害な完成例について紹介する。
私たちの研究は、商用の大規模言語モデルにおける新たな脆弱性を明らかにし、より包括的な保護の必要性を強調しています。
論文 参考訳(メタデータ) (2023-11-06T18:55:18Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。