論文の概要: ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
- arxiv url: http://arxiv.org/abs/2605.02647v1
- Date: Mon, 04 May 2026 14:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.335653
- Title: ContextualJailbreak: Evolutionary Red-Teaming via Simulated Conversational Priming
- Title(参考訳): ContextualJailbreak: 仮想会話プライミングによる進化的レッドチーム
- Authors: Mario Rodríguez Béjar, Francisco J. Cortés-Delgado, S. Braghin, Jose L. Hernández-Ramos,
- Abstract要約: 大規模言語モデル(LLM)は、安全アライメントを回避し、有害な応答を誘発するジェイルブレイク攻撃に対して脆弱なままである。
我々は,マルチターン素数対話をシミュレートした進化探索を行う,ブラックボックスのレッドチーム戦略であるContextualJailbreakを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain vulnerable to jailbreak attacks that bypass safety alignment and elicit harmful responses. A growing body of work shows that contextual priming, where earlier turns covertly bias later replies, constitutes a powerful attack surface, with hand-crafted multi-turn scaffolds consistently outperforming single-turn manipulations on capable models. However, automated optimization-based red-teaming has remained largely limited to the single-turn setting, iterating over static prompts and lacking the ability to reason about which forms of conversational priming induce compliance. While recent multi-turn, search-based approaches have begun to bridge this gap, the mutator design space underlying effective primed dialogues remains largely unexplored. We present ContextualJailbreak, a black-box red-teaming strategy that performs evolutionary search over a simulated multi-turn primed dialogue. The strategy leverages a graded 0-5 harm score from a two-level judge as an in-loop signal, enabling partially harmful responses to guide the search process rather than being discarded. Search is driven by five semantically defined mutation operators: roleplay, scenario, expand, troubleshooting, and mechanistic, of which the last two are novel contributions of this work. Across 50 representative HarmBench behaviors, ContextualJailbreak achieves an ASR of 100% on gpt-oss:20B, 100% on qwen3-8B, 100% on llama3.1:70B, and 90% on gpt-oss:120B, outperforming four single- and multi-turn baselines by 31-96 percentage points on average. The 40 maximally harmful attacks discovered against gpt-oss:120B transfer without adaptation to closed frontier models, achieving 90.0% on gpt-4o-mini, 70.0% on gpt-5, and 70.0% on gemini-3-flash, but only 17.5% on claude-opus-4-7 and 15.0% on claude-sonnet-4-6, revealing a pronounced provider-level asymmetry in alignment robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全アライメントを回避し、有害な応答を誘発するジェイルブレイク攻撃に対して脆弱なままである。
研究の活発化によって、先述の偏見を隠蔽的に反映したコンテキストプライミングが強力な攻撃面を形成しており、手作りの多ターン足場は有能なモデルでのシングルターン操作を一貫して上回っていることが示されている。
しかし、自動化された最適化ベースのレッドチーム化はシングルターン設定に限られており、静的なプロンプトを反復し、どの形式の会話プライミングがコンプライアンスを誘発するかを推論する能力が欠如している。
近年のマルチターン・サーチベースアプローチはこのギャップを埋め始めたが、ミューテーター設計空間の根底にある効果的な素数対話は未解明のままである。
我々は,マルチターン素数対話をシミュレートした進化探索を行う,ブラックボックスのレッドチーム戦略であるContextualJailbreakを提案する。
この戦略は、2段階の審査員からの0-5の無害スコアをループ内信号として活用し、部分的に有害な応答によって、破棄されるのではなく、探索プロセスのガイドを可能にする。
探索は5つの意味論的に定義された突然変異演算子(ロールプレイ、シナリオ、拡張、トラブルシューティング、メカニスティック)によって駆動される。
50以上の代表的HarmBenchの振る舞いにおいて、ContextualJailbreakは、gpt-oss:20Bで100%、qwen3-8Bで100%、llama3.1:70Bで100%、gpt-oss:120Bで90%のASRを達成する。
gpt-oss:120B がクローズドフロンティアモデルに適応せず、gpt-4o-miniで90.0%、gpt-5で70.0%、gemini-3-flashで70.0%を達成したが、claude-opus-4-7で17.5%、claude-sonnet-4-6で15.0%しか検出されなかった。
関連論文リスト
- Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models [0.0]
拡散言語モデル(dLLM)における安全性の整合性は、単一の負荷を持つ仮定に依存している。
コミットされた拒絶トークンを再マッシングし,短い肯定的接頭辞を注入することにより,HarmBench上で74~82%のASRが得られることを示す。
我々はこの攻撃をTrajHijackと呼び、これはdLLMに対する最初の軌道レベルの攻撃であり、計算を必要とせず、SFTモデルと優先最適化(VRPO)モデルにまたがって一般化する。
論文 参考訳(メタデータ) (2026-03-17T02:24:37Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [2.6799007584079884]
AutoAdvは、自動マルチターンジェイルブレイクのためのトレーニング不要のフレームワークである。
Llama-3.1-8Bの攻撃成功率は最大95%に達する。
論文 参考訳(メタデータ) (2025-11-04T08:56:28Z) - Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks [10.7231991032233]
大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
i) 合成マルチターンハラスメント会話データセット、(ii) 繰り返しゲーム理論によって通知されるマルチエージェント(例えば、ハラッサー、被害者)シミュレーション、(iii) 記憶、計画、微調整にまたがるエージェントを攻撃する3つのジェイルブレイク手法、(iv) 混合メソッド評価フレームワークからなるオンラインハラスメントエージェントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-16T01:27:44Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。