論文の概要: CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.05523v1
- Date: Thu, 04 Jun 2026 00:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.621492
- Title: CHASE: Adversarial Red-Blue Teaming for Improving LLM Safety using Reinforcement Learning
- Title(参考訳): CHASE:強化学習を用いたLCMの安全性向上のための赤-青対応
- Authors: Rahul Markasserithodi, Aditya Joshi, Yuekang Li, Ishmanbir Singh, Chris Yoo, Alan Niu,
- Abstract要約: ブラックボックス攻撃者と安全に配慮したディフェンダーを共同開発するチームリングフレームワークであるCHASEを紹介する。
CHASEカットはStrongREJECTスコアを43.2%削減し、良心的なプロンプトで0%の偽りを拒否する。
見出し結果の他に、CHASEはテンプレートのないRL探索が、機械的に異なる攻撃ファミリー間で転送される潜在攻撃プリミティブを回復することを示している。
- 参考スコア(独自算出の注目度): 11.739543857396775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in safety alignment, prompt-rewriting attacks such as persona modulation, fictional framing and persuasion-based reformulation, can bypass safety filters even on frontier models. Existing defenses either rely on non-scalable human curation or white-box optimisation that overfits to specific model internals, leaving aligned models brittle against the very class of adaptive black-box adversaries they will face in deployment. To address this gap, we introduce CHASE (Co-evolutionary Hardening through Adversarial Safety-Escalation), a closed-loop red-blue teaming framework in which a black-box attacker and a safety-aligned defender co-evolve. The attacker is trained via Group Relative Policy Optimization (GRPO) under a multiplicative reward that jointly enforces bypass effectiveness and intent fidelity, while the defender is hardened on the harvested adversarial rewrites through a two-stage GRPO + rejection-sampled SFT pipeline balanced with benign data. Evaluated on BeaverTails and JailbreakBench against five held-out attack families (PAIR, TAP, AutoDAN, PAP, Translation), CHASE cuts mean StrongREJECT score by 43.2\% with 0\% false-refusal on benign prompts. Beyond the headline result, CHASE shows that template-free RL exploration recovers latent attack primitives that transfer across mechanistically distinct attack families, suggesting a path toward LLM safety hardening that generalises beyond the narrow distributions achieved thus far in adversarial training.
- Abstract(参考訳): 安全アライメントの進歩にもかかわらず、ペルソナ変調、架空のフレーミング、説得に基づく改革のような即時書き換え攻撃は、フロンティアモデルでも安全フィルタを回避できる。
既存の防御は、非スケール可能な人間のキュレーションや、特定のモデル内部に過度に適合するホワイトボックスの最適化に依存しており、配置時に直面する適応的なブラックボックスの敵に対して、アライメントされたモデルは脆弱である。
このギャップに対処するため,我々は,ブラックボックス攻撃者と安全に配慮したディフェンダーが共進化するクローズドループ・レッドブルー・チーム・フレームワークであるCHASE(Co-evolutionary Hardening through Adversarial Safety-Escalation)を紹介した。
攻撃者はグループ相対ポリシー最適化(GRPO)を通じて、有効性と意図の忠実性を共同で強制する乗法的な報酬の下で訓練され、一方ディフェンダーは、2段階のGRPO+拒絶サンプリングされたSFTパイプラインと良質なデータとのバランスを保ちながら、収穫された敵の書き直しに強化される。
PAIR, TAP, AutoDAN, PAP, 翻訳)に対してビーバータイルとジェイルブレイクベンチで評価され、CHASEのカット平均StrongREJECTスコアは43.2\%、良心的なプロンプトは0.%である。
CHASEは、見出しの他に、テンプレートのないRL探索は、機械的に異なる攻撃ファミリー間で伝達される潜伏攻撃プリミティブを回復し、LLMの安全性向上への道筋を示唆し、これまで敵の訓練で達成された狭い分布を超えて一般化している。
関連論文リスト
- Model-Agnostic Lifelong LLM Safety via Externalized Attack-Defense Co-Evolution [43.00984815993804]
EvoSafetyは、永続的で検査可能で再利用可能な外部構造を中心に構築された安全フレームワークである。
レッドチームでは、EvoSafetyは攻撃ポリシーに敵のスキルライブラリを装備し、継続的な脆弱性調査を可能にする。
防衛学習のために、EvoSafetyは、モデル固有の安全性の微調整を、メモリ検索を付加した軽量な補助防衛モデルに置き換える。
論文 参考訳(メタデータ) (2026-05-13T12:07:05Z) - Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。