論文の概要: Multi-Turn Jailbreaks Are Simpler Than They Seem
- arxiv url: http://arxiv.org/abs/2508.07646v1
- Date: Mon, 11 Aug 2025 05:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.962737
- Title: Multi-Turn Jailbreaks Are Simpler Than They Seem
- Title(参考訳): マルチTurnのジェイルブレイクは見たよりシンプル
- Authors: Xiaoxue Yang, Jaeha Lee, Anna-Katharina Dick, Jasper Timm, Fei Xie, Diogo Cruz,
- Abstract要約: マルチターンジェイルブレイク攻撃は、シングルターン保護に最適化されたモデルに対して、70%以上の成功率を達成する。
この結果は,AIの安全性評価やジェイルブレイク耐性システムの設計に重要な意味を持つ。
- 参考スコア(独自算出の注目度): 3.6010884750431438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While defenses against single-turn jailbreak attacks on Large Language Models (LLMs) have improved significantly, multi-turn jailbreaks remain a persistent vulnerability, often achieving success rates exceeding 70% against models optimized for single-turn protection. This work presents an empirical analysis of automated multi-turn jailbreak attacks across state-of-the-art models including GPT-4, Claude, and Gemini variants, using the StrongREJECT benchmark. Our findings challenge the perceived sophistication of multi-turn attacks: when accounting for the attacker's ability to learn from how models refuse harmful requests, multi-turn jailbreaking approaches are approximately equivalent to simply resampling single-turn attacks multiple times. Moreover, attack success is correlated among similar models, making it easier to jailbreak newly released ones. Additionally, for reasoning models, we find surprisingly that higher reasoning effort often leads to higher attack success rates. Our results have important implications for AI safety evaluation and the design of jailbreak-resistant systems. We release the source code at https://github.com/diogo-cruz/multi_turn_simpler
- Abstract(参考訳): 大規模言語モデル(LLM)に対するシングルターンジェイルブレイク攻撃に対する防御は大幅に改善されているが、マルチターンジェイルブレイクは永続的な脆弱性であり、多くの場合、シングルターン保護のために最適化されたモデルに対して70%以上の成功率を達成する。
本研究は,GPT-4, Claude, Gemini の変種を含む最先端モデルを対象に,StrongREJECTベンチマークを用いて,自動マルチターンジェイルブレイク攻撃の実証分析を行った。
攻撃者がモデルが有害な要求を拒否する方法から学習する能力を考慮すると、マルチターンジェイルブレイクアプローチは、単純な単一ターン攻撃を複数回再サンプリングするのとほぼ同等である。
さらに、攻撃の成功は類似のモデルと相関しており、新たにリリースされたモデルを簡単にジェイルブレイクすることができる。
さらに、推論モデルでは、より高い推論努力が攻撃の成功率を高めることが予想される。
この結果は,AIの安全性評価とジェイルブレイク耐性システムの設計に重要な意味を持つ。
ソースコードはhttps://github.com/diogo-cruz/multi_turn_simplerで公開しています。
関連論文リスト
- Test-Time Immunization: A Universal Defense Framework Against Jailbreaks for (Multimodal) Large Language Models [80.66766532477973]
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
テストタイム免疫(TIM)は、自己進化的な方法で様々なジェイルブレイク攻撃に対して適応的に防御することができる。
論文 参考訳(メタデータ) (2025-05-28T11:57:46Z) - One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs [13.54228868302755]
ArrAttackは、防衛された大規模言語モデル(LLM)をターゲットにした攻撃方法である。
ArrAttackは、様々な防御措置をバイパスできる堅牢なジェイルブレイクプロンプトを自動的に生成する。
私たちの仕事は、ジェイルブレイク攻撃と防衛のギャップを埋め、堅牢なジェイルブレイクプロンプトを生成するための新たな視点を提供します。
論文 参考訳(メタデータ) (2025-05-23T08:02:38Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z) - Rapid Response: Mitigating LLM Jailbreaks with a Few Examples [13.841146655178585]
我々は,少数の攻撃を観測した後に,脱獄のクラス全体をブロックするために,迅速な応答手法を開発した。
我々は5つの迅速応答法を評価し,それぞれがジェイルブレイク増殖を利用した。
我々の最強の方法は、ジェイルブレイクの非分配セットで240以上、アウト・オブ・ディストリビューションセットで15以上、攻撃成功率で240以上削減する。
論文 参考訳(メタデータ) (2024-11-12T02:44:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。