論文の概要: Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs
- arxiv url: http://arxiv.org/abs/2409.14866v1
- Date: Tue, 8 Oct 2024 12:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:39:08.823647
- Title: Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs
- Title(参考訳): LLMに対するファジテスト駆動型ジェイルブレーキング攻撃の有効性と普及
- Authors: Xueluan Gong, Mingzhe Li, Yilin Zhang, Fengyuan Ran, Chen Chen, Yanjiao Chen, Qian Wang, Kwok-Yan Lam,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
本手法は攻撃成功率を90%以上,80%,74%以上とし,既存ベースラインを60%以上越えた。
- 参考スコア(独自算出の注目度): 33.87649859430635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have excelled in various tasks but are still vulnerable to jailbreaking attacks, where attackers create jailbreak prompts to mislead the model to produce harmful or offensive content. Current jailbreak methods either rely heavily on manually crafted templates, which pose challenges in scalability and adaptability, or struggle to generate semantically coherent prompts, making them easy to detect. Additionally, most existing approaches involve lengthy prompts, leading to higher query costs.In this paper, to remedy these challenges, we introduce a novel jailbreaking attack framework, which is an automated, black-box jailbreaking attack framework that adapts the black-box fuzz testing approach with a series of customized designs. Instead of relying on manually crafted templates, our method starts with an empty seed pool, removing the need to search for any related jailbreaking templates. We also develop three novel question-dependent mutation strategies using an LLM helper to generate prompts that maintain semantic coherence while significantly reducing their length. Additionally, we implement a two-level judge module to accurately detect genuine successful jailbreaks. We evaluated our method on 7 representative LLMs and compared it with 5 state-of-the-art jailbreaking attack strategies. For proprietary LLM APIs, such as GPT-3.5 turbo, GPT-4, and Gemini-Pro, our method achieves attack success rates of over 90%, 80%, and 74%, respectively, exceeding existing baselines by more than 60%. Additionally, our method can maintain high semantic coherence while significantly reducing the length of jailbreak prompts. When targeting GPT-4, our method can achieve over 78\% attack success rate even with 100 tokens. Moreover, our method demonstrates transferability and is robust to state-of-the-art defenses. We will open-source our codes upon publication.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクに優れていますが、攻撃者が有害または攻撃的なコンテンツを生成するためにモデルを誤解させるジェイルブレイクのプロンプトを作成するという、ジェイルブレイク攻撃に対して依然として脆弱です。
現在のjailbreakメソッドは手作業によるテンプレートに大きく依存しているため、スケーラビリティと適応性の課題が生じるか、セマンティックな一貫性のあるプロンプトの生成に苦労しているため、検出が容易である。
さらに、既存のほとんどのアプローチは、長いプロンプトを伴い、より高いクエリコストをもたらす。この記事では、これらの課題を解決するために、一連のカスタマイズされた設計でブラックボックスファジテストアプローチに適応する、ブラックボックスのジェイルブレイク攻撃フレームワークである、新しいジェイルブレーク攻撃フレームワークを導入します。
手作りのテンプレートに頼る代わりに、私たちのメソッドは空のシードプールから始まり、関連するジェイルブレイクテンプレートを検索する必要がなくなる。
また,LLMヘルパーを用いて,意味的コヒーレンスを維持しつつ,その長さを大幅に減少させるプロンプトを生成する3つの新規な質問依存突然変異戦略を開発した。
さらに,真に成功したジェイルブレイクを正確に検出する2レベル判定モジュールを実装した。
本手法を 7 種類の LLM 上で評価し、5 つの最先端のジェイルブレイク攻撃戦略と比較した。
GPT-3.5ターボ, GPT-4, Gemini-Pro などの独自 LLM API に対して, 攻撃成功率は 90% 以上, 80% および 74% 以上であり, 既存のベースラインを 60% 以上越えている。
さらに,本手法は,ジェイルブレイクプロンプトの長さを大幅に削減しつつ,高いセマンティック・コヒーレンスを維持することができる。
GPT-4を対象とする場合,100トークンであっても,攻撃成功率78\%以上を達成することができる。
さらに,本手法は移動可能性を示し,最先端の防御に頑健である。
私たちは公開時にコードをオープンソース化します。
関連論文リスト
- Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
We found that IRIS jailbreak success rate of 98% on GPT-4, 92% on GPT-4 Turbo, 94% on Llama-3.1-70B in 7 query。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks [0.0]
本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。
本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。
提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-01-18T08:36:54Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。