論文の概要: DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization
- arxiv url: http://arxiv.org/abs/2504.18564v1
- Date: Mon, 21 Apr 2025 11:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.874655
- Title: DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization
- Title(参考訳): DualBreach: ターゲット駆動初期化とマルチターゲット最適化による効率的なデュアルジェイルブレーク
- Authors: Xinzhe Huang, Kedong Xiu, Tianhang Zheng, Churui Zeng, Wangze Ni, Zhan Qiin, Kui Ren, Chun Chen,
- Abstract要約: 本稿では,デュアルジェイルブレークのためのターゲット駆動型フレームワークであるDualBreachを提案する。
ブラックボックスガードレールでは、DualBreachは強力なオープンソースガードレールを使用するか、プロキシモデルをトレーニングすることでターゲットのブラックボックスガードレールを模倣する。
広範に使用されているデータセットを広範囲に評価することにより,デュアルジェイルブレークシナリオにおけるDualBreachの有効性を実証する。
- 参考スコア(独自算出の注目度): 15.197413326187936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has focused on exploring the vulnerabilities of Large Language Models (LLMs), aiming to elicit harmful and/or sensitive content from LLMs. However, due to the insufficient research on dual-jailbreaking -- attacks targeting both LLMs and Guardrails, the effectiveness of existing attacks is limited when attempting to bypass safety-aligned LLMs shielded by guardrails. Therefore, in this paper, we propose DualBreach, a target-driven framework for dual-jailbreaking. DualBreach employs a Target-driven Initialization (TDI) strategy to dynamically construct initial prompts, combined with a Multi-Target Optimization (MTO) method that utilizes approximate gradients to jointly adapt the prompts across guardrails and LLMs, which can simultaneously save the number of queries and achieve a high dual-jailbreaking success rate. For black-box guardrails, DualBreach either employs a powerful open-sourced guardrail or imitates the target black-box guardrail by training a proxy model, to incorporate guardrails into the MTO process. We demonstrate the effectiveness of DualBreach in dual-jailbreaking scenarios through extensive evaluation on several widely-used datasets. Experimental results indicate that DualBreach outperforms state-of-the-art methods with fewer queries, achieving significantly higher success rates across all settings. More specifically, DualBreach achieves an average dual-jailbreaking success rate of 93.67% against GPT-4 with Llama-Guard-3 protection, whereas the best success rate achieved by other methods is 88.33%. Moreover, DualBreach only uses an average of 1.77 queries per successful dual-jailbreak, outperforming other state-of-the-art methods. For the purpose of defense, we propose an XGBoost-based ensemble defensive mechanism named EGuard, which integrates the strengths of multiple guardrails, demonstrating superior performance compared with Llama-Guard-3.
- Abstract(参考訳): 最近の研究は、LLMから有害なコンテンツやセンシティブなコンテンツを引き出すことを目的とした、Large Language Models (LLMs)の脆弱性の探索に重点を置いている。
しかし、LLMとガードレールの両方を標的とした2重ジェイルブレーカーの研究が不十分なため、ガードレールで守られた安全に整合したLLMをバイパスしようとする場合、既存の攻撃の有効性は制限されている。
そこで本稿では,デュアルジェイルブレークのためのターゲット駆動型フレームワークであるDualBreachを提案する。
DualBreachは、初期プロンプトを動的に構築するターゲット駆動初期化(TDI)戦略と、近似勾配を利用してガードレールとLCMをまたいでプロンプトを協調的に適応するマルチターゲット最適化(MTO)手法を組み合わせることで、クエリ数を同時に削減し、高い二重ジェイルブレーク成功率を達成する。
ブラックボックスガードレールでは、DualBreachは強力なオープンソースガードレールを使用するか、プロキシモデルをトレーニングすることでターゲットのブラックボックスガードレールを模倣して、ガードレールをMTOプロセスに組み込む。
広範に使用されているデータセットを広範囲に評価することにより,デュアルジェイルブレークシナリオにおけるDualBreachの有効性を実証する。
実験結果から、DualBreachはクエリが少なくて最先端のメソッドよりも優れており、すべての設定で成功率が大幅に向上していることがわかった。
より具体的には、DualBreachはGPT-4とLlama-Guard-3の保護で93.67%という平均的な二重ジェイル破りの成功率を達成するが、他の方法で達成される最高の成功率は88.33%である。
さらに、DualBreachは成功すれば平均1.77クエリしか使用せず、他の最先端の手法よりも優れている。
本研究の目的は,複数のガードレールの強度を統合したXGBoostベースのアンサンブル防御機構であるEGuardを提案し,Llama-Guard-3と比較して優れた性能を示した。
関連論文リスト
- Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks [17.75247947379804]
MLLM訓練期間中のジェイルブレイク攻撃に対する防御を目的とした,最初の対人訓練パラダイムを提示する。
エンド・ツー・エンドのATフレームワークであるProEAT(Projection Layer Against Adversarial Training)を紹介する。
ProEATは最先端の防御性能を達成し、テキストと画像のモダリティの平均マージン+34%で既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-05T14:13:35Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Fight Back Against Jailbreaking via Prompt Adversarial Tuning [23.55544992740663]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,ユーザプロンプトに付随するプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。
本手法は, グレーボックス攻撃とブラックボックス攻撃の両方に対して有効であり, 先進攻撃の成功率を0%に低下させる。
論文 参考訳(メタデータ) (2024-02-09T09:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。