論文の概要: SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2602.06854v1
- Date: Fri, 06 Feb 2026 16:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.490027
- Title: SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks
- Title(参考訳): SEMA: マルチターンジェイルブレイク攻撃のためのシンプルで効果的な学習
- Authors: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Jialin Song, Xuekai Zhu, Chenliang Xu, Jianfeng Gao,
- Abstract要約: 本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
- 参考スコア(独自算出の注目度): 53.97948802255959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average $80.1\%$ ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.
- Abstract(参考訳): マルチターンジェイルブレイクは、単一のターン攻撃が特別なケースである、安全に対応するチャットボットの真の脅威モデルをキャプチャする。
しかし、既存のアプローチは、探索の複雑さと意図の漂流で壊れる。
既存の戦略や外部データに頼ることなく、マルチターン攻撃者を訓練する、シンプルで効果的なフレームワークSEMAを提案する。
SEMAは2つのステージから構成される。
自己調整を準備することで、最小限のプレフィックスで自己生成される非拒否的で、構造化された、多ターンの逆転プロンプトを微調整することで、使用可能なロールアウトを可能にし、その後の学習を安定化することができる。
インテント・ドリフト・アウェア・報酬による強化学習は、攻撃者が同じ有害な目的を維持しつつ、有効なマルチターンの敵のプロンプトを引き出すよう訓練する。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
我々のオープンループ攻撃システムは、被害者のフィードバックへの依存を回避し、シングルターンとマルチターンの設定を統一し、探索の複雑さを低減する。
複数のデータセット、被害者モデル、およびジェイルブレイクの判定者に対して、我々の手法は、最先端(SOTA)攻撃成功率(ASR)を達成し、シングルターンベースライン、手動スクリプト、テンプレート駆動のマルチターンベースライン、SFT(Supervised Fine-Tuning)およびDPO(Direct Preference Optimization)の亜種よりも優れたパフォーマンスを実現している。
例えば、SEMAはAdvBench上で3つのクローズドソースおよびオープンソース犠牲者モデルに対して平均80.1\%$ ASR@1を実行し、SOTAでは33.9%である。
このアプローチはコンパクトで再現可能で、ターゲット間での転送が可能で、大きな言語モデル(LLM)の安全性に対してより強力で現実的なストレステストを提供し、自動再チームの障害モードの公開とローカライズを可能にする。
私たちのコードは、https://github.com/fmmarkmq/SEMA.comで利用可能です。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Multi-Turn Jailbreaks Are Simpler Than They Seem [3.6010884750431438]
マルチターンジェイルブレイク攻撃は、シングルターン保護に最適化されたモデルに対して、70%以上の成功率を達成する。
この結果は,AIの安全性評価やジェイルブレイク耐性システムの設計に重要な意味を持つ。
論文 参考訳(メタデータ) (2025-08-11T05:57:41Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.91993614197627]
本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文 参考訳(メタデータ) (2025-03-06T07:34:51Z) - Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors [12.550678408719756]
本研究では,実世界の人間のジェイルブレイク行動のシミュレーションを目的とした,学習に基づくマルチターン攻撃フレームワークを提案する。
実験の結果、サイレンはLLaMA-3-8Bを攻撃者として90%の攻撃成功率(ASR)を達成した。
我々は、サイレンが先進的な多ターンジェイルブレイク攻撃に対するより強力な防御の開発を促すことを願っている。
論文 参考訳(メタデータ) (2025-01-24T05:31:27Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。