論文の概要: The Attacker in the Mirror: Breaking Self-Consistency in Safety via Anchored Bipolicy Self-Play
- arxiv url: http://arxiv.org/abs/2605.08427v1
- Date: Fri, 08 May 2026 19:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.638832
- Title: The Attacker in the Mirror: Breaking Self-Consistency in Safety via Anchored Bipolicy Self-Play
- Title(参考訳): 鏡の中のアタッカー:アンコレド・バイポリシー・セルフプレイによる安全の自己整合性を破る
- Authors: Gabriele La Malfa, Emanuele La Malfa, Saar Cohen, Jie M. Zhang, Michael Luck, Michael Wooldridge, Elizabeth Black,
- Abstract要約: セルフプレイレッドチームは、AIの安全性を改善するための確立したアプローチである。
凍結ベースモデル上でロール固有のLoRAアダプタを訓練するAnchored Bipolicy Self-Playを提案する。
パラメータ効率は, 自動調整モデルと比較して, ファインチューニングよりも100倍向上し, 安全性も一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 16.696570190611112
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-play red team is an established approach to improving AI safety in which different instances of the same model play attacker and defender roles in a zero-sum game, i.e., where the attacker tries to jailbreak the defender; if self-play converges to a Nash equilibrium, the model is guaranteed to respond safely within the settings of the game. Although the parameter sharing enforced by the use of the same model for the two roles improves stability and performance, it introduces fundamental theoretical and architectural limitations. We show that the set of Nash equilibria that can be reached corresponds to a broad class of behaviours that includes trivial always refuse strategies and oracle-like defenders, thus limiting practical applicability. We then show that when attacker and defender share and update the same base model, the dynamics collapse to self-consistency, so that attacks do not enforce adversarial pressure on the defender. In response, we propose Anchored Bipolicy Self-Play, which trains distinct role-specific LoRA adapters on top of a frozen base model, thereby maintaining stable optimisation while preserving adversarial pressure through explicit role separation. In relation to standard self-play, we show up to 100x greater parameter efficiency than finetuning and consistent improvements in safety compared to self-play fine-tuned models. We evaluate on Qwen2.5-{3B, 7B,14B}-IT models across widely used safety benchmarks, showing improved robustness without loss of reasoning ability. Cross-play experiments further show that our attacker and defender models are superior to self-play in terms of adversarial defence and safety.
- Abstract(参考訳): セルフプレイレッドチーム(Self-play Red team)は、ゼロサムゲームにおいて、同じモデルの異なるインスタンスが攻撃者およびディフェンダーロールをプレイする、すなわち、攻撃者がディフェンダーをジェイルブレイクしようとする、AI安全性を改善するための確立されたアプローチである。
2つの役割に同じモデルを使用することで実施されるパラメータ共有は、安定性と性能を向上させるが、基本的な理論的およびアーキテクチャ上の制限を導入する。
到達可能なナッシュ均衡の集合は、自明な戦略やオラクルのようなディフェンダーを含む幅広い種類の行動に対応し、実用的な適用性を制限していることを示す。
次に、攻撃者とディフェンダーが同じベースモデルを共有して更新すると、ダイナミクスが自己整合性に崩壊し、攻撃がディフェンダーに敵意の圧力を強制しないことを示す。
そこで本研究では, 凍結ベースモデル上で, ロール固有のLoRAアダプタを訓練し, 対向圧力を保ちながら, 安定的な最適化を維持できるAnchored Bipolicy Self-Playを提案する。
従来のセルフプレイでは、ファインチューニングよりもパラメータ効率が最大100倍向上し、自己プレイのファインチューニングモデルに比べて安全性が一貫した。
我々は,Qwen2.5-{3B,7B,14B}-ITモデルを広く使用されている安全ベンチマークで評価した。
クロスプレイ実験により、攻撃者やディフェンダーのモデルは、敵の防御と安全性の点で、自己プレイよりも優れていることが示された。
関連論文リスト
- Reproducing AlphaZero on Tablut: Self-Play RL for an Asymmetric Board Game [0.6574517227976925]
非対称な歴史的ボードゲームであるTablutへのAlphaZero強化学習アルゴリズムの適用について検討する。
100回以上のセルフプレイが実施され、改良されたモデルは着実に改善され、ベイズエロの格付けは1235となった。
実験の結果、AlphaZeroのセルフプレイフレームワークが高度に非対称なゲームに移行できることが確認された。
論文 参考訳(メタデータ) (2026-04-07T06:16:19Z) - Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T17:00:16Z) - Safety Alignment of LMs via Non-cooperative Games [51.83432183158595]
現在のアプローチは、逐次的な敵の訓練に頼り、敵のプロンプトを生成し、それらを防御するために微調整されたLMを生成する。
我々は,アタッカーLMとディフェンダーLMの非ゼロサムゲームとしての安全性アライメントを共同でトレーニングする,異なるパラダイムを導入する。
提案手法では、ポイントワイズスコアではなくペアワイズ比較から導出される優先型報酬信号を用いて、より堅牢な監視と、報酬ハッキングの軽減を実現する。
論文 参考訳(メタデータ) (2025-12-23T22:13:14Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。