論文の概要: Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay
- arxiv url: http://arxiv.org/abs/2601.10589v1
- Date: Thu, 15 Jan 2026 17:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.237848
- Title: Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay
- Title(参考訳): 自分のレッドチームになる: セルフプレイとリフレクティブ体験による安全アライメント
- Authors: Hao Wang, Yanting Wang, Hao Li, Rui Li, Lei Sha,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 19.431152130507648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable capabilities but remain vulnerable to adversarial ``jailbreak'' attacks designed to bypass safety guardrails. Current safety alignment methods depend heavily on static external red teaming, utilizing fixed defense prompts or pre-collected adversarial datasets. This leads to a rigid defense that overfits known patterns and fails to generalize to novel, sophisticated threats. To address this critical limitation, we propose empowering the model to be its own red teamer, capable of achieving autonomous and evolving adversarial attacks. Specifically, we introduce Safety Self- Play (SSP), a system that utilizes a single LLM to act concurrently as both the Attacker (generating jailbreaks) and the Defender (refusing harmful requests) within a unified Reinforcement Learning (RL) loop, dynamically evolving attack strategies to uncover vulnerabilities while simultaneously strengthening defense mechanisms. To ensure the Defender effectively addresses critical safety issues during the self-play, we introduce an advanced Reflective Experience Replay Mechanism, which uses an experience pool accumulated throughout the process. The mechanism employs a Upper Confidence Bound (UCB) sampling strategy to focus on failure cases with low rewards, helping the model learn from past hard mistakes while balancing exploration and exploitation. Extensive experiments demonstrate that our SSP approach autonomously evolves robust defense capabilities, significantly outperforming baselines trained on static adversarial datasets and establishing a new benchmark for proactive safety alignment.
- Abstract(参考訳): LLM(Large Language Models)は目覚ましい能力を達成したが、安全ガードレールをバイパスするために設計された'jailbreak'攻撃に対して脆弱なままである。
現在の安全アライメント手法は、固定された防御プロンプトや事前コンパイルされた敵のデータセットを利用して、静的な赤外チーム化に大きく依存している。
これは、既知のパターンに過度に適合し、新規で洗練された脅威に一般化に失敗する厳格な防御につながる。
この限界に対処するため、我々は、自律的で進化する敵攻撃を達成できる独自のレッドチームとしてモデルを強化することを提案する。
具体的には、単一のLSMを利用して、統一強化学習(RL)ループ内のアタッカー(ジェイルブレイクの発生)とデフェンダー(有害な要求を拒否)の両方を同時に動作させるシステムであるセーフティセルフプレイ(SSP)を導入し、防御機構を同時に強化しながら脆弱性を発見できる攻撃戦略を動的に進化させる。
デフェンダーが自己プレイ中に重要な安全問題に効果的に対処できるようにするために,プロセス全体にわたって蓄積された体験プールを利用する,高度な反射体験再生機構を導入する。
このメカニズムでは、アッパー信頼境界(UCB)サンプリング戦略を採用して、低い報酬で障害ケースに焦点を当て、モデルが過去のハードエラーから学習し、探索とエクスプロイトのバランスをとるのを支援する。
大規模な実験により、我々のSSPアプローチは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回り、アクティブな安全アライメントのための新しいベンチマークを確立した。
関連論文リスト
- SAID: Empowering Large Language Models with Self-Activating Internal Defense [23.654016424365906]
我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-23T02:07:54Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。