論文の概要: Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses
- arxiv url: http://arxiv.org/abs/2506.21972v1
- Date: Fri, 27 Jun 2025 07:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.117832
- Title: Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses
- Title(参考訳): 脱獄戦略の推進:LLM脆弱性の爆発と現代の防衛をバイパスするためのハイブリッドアプローチ
- Authors: Mohamed Ahmed, Mohamed Abdelmouty, Mingyu Kim, Gunvanth Kandula, Alex Park, James C. Davis,
- Abstract要約: 2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
- 参考スコア(独自算出の注目度): 4.706534644850809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Pre-Trained Language Models (PTLMs) and Large Language Models (LLMs) has led to their widespread adoption across diverse applications. Despite their success, these models remain vulnerable to attacks that exploit their inherent weaknesses to bypass safety measures. Two primary inference-phase threats are token-level and prompt-level jailbreaks. Token-level attacks embed adversarial sequences that transfer well to black-box models like GPT but leave detectable patterns and rely on gradient-based token optimization, whereas prompt-level attacks use semantically structured inputs to elicit harmful responses yet depend on iterative feedback that can be unreliable. To address the complementary limitations of these methods, we propose two hybrid approaches that integrate token- and prompt-level techniques to enhance jailbreak effectiveness across diverse PTLMs. GCG + PAIR and the newly explored GCG + WordGame hybrids were evaluated across multiple Vicuna and Llama models. GCG + PAIR consistently raised attack-success rates over its constituent techniques on undefended models; for instance, on Llama-3, its Attack Success Rate (ASR) reached 91.6%, a substantial increase from PAIR's 58.4% baseline. Meanwhile, GCG + WordGame matched the raw performance of WordGame maintaining a high ASR of over 80% even under stricter evaluators like Mistral-Sorry-Bench. Crucially, both hybrids retained transferability and reliably pierced advanced defenses such as Gradient Cuff and JBShield, which fully blocked single-mode attacks. These findings expose previously unreported vulnerabilities in current safety stacks, highlight trade-offs between raw success and defensive robustness, and underscore the need for holistic safeguards against adaptive adversaries.
- Abstract(参考訳): PTLM(Pre-Trained Language Models)とLLM(Large Language Models)の進歩は、様々なアプリケーションで広く採用されている。
彼らの成功にもかかわらず、これらのモデルは安全対策を回避するために固有の弱点を利用する攻撃に弱いままである。
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの攻撃は、GPTのようなブラックボックスモデルによく移行する逆数列を埋め込むが、検出可能なパターンを残し、勾配ベースのトークン最適化に依存する。
これらの手法の補完的限界に対処するため,トークンレベルの手法とプロンプトレベルの手法を統合し,多様なPTLMにおけるジェイルブレイクの有効性を向上する2つのハイブリッド手法を提案する。
GCG + PAIRと新たに探索されたGCG + WordGameハイブリッドを複数のVicunaモデルとLlamaモデルで評価した。
GCG + PAIRは、防御されていないモデルにおける構成技術に対する攻撃率を一貫して引き上げ、例えばLlama-3では攻撃成功率(ASR)が91.6%に達し、PAIRの58.4%から大幅に増加した。
一方、GCG + WordGameは、Mistral-Sorry-Benchのような厳格な評価の下でも、高いASRを維持するWordGameの生のパフォーマンスと一致した。
両ハイブリッドは輸送性を維持し、グラディエント・カフ(Gradient Cuff)やJBShield(JBShield)のような先進的な防御を確実に貫き、単一モード攻撃を完全にブロックした。
これらの発見は、現在報告されていない現在の安全スタックの脆弱性を明らかにし、生の成功と防御的堅牢性の間のトレードオフを強調し、適応的な敵に対する全体的保護の必要性を浮き彫りにした。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses [6.736255552371404]
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。
グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
論文 参考訳(メタデータ) (2025-05-21T16:43:17Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。