論文の概要: Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models
- arxiv url: http://arxiv.org/abs/2506.07468v1
- Date: Mon, 09 Jun 2025 06:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.831372
- Title: Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models
- Title(参考訳): 安全な言語モデルのためのオンラインセルフプレイ強化学習による移動目標の探索
- Authors: Mickel Liu, Liwei Jiang, Yancheng Liang, Simon Shaolei Du, Yejin Choi, Tim Althoff, Natasha Jaques,
- Abstract要約: 従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
- 参考スコア(独自算出の注目度): 55.28518567702213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional language model (LM) safety alignment relies on a reactive, disjoint procedure: attackers exploit a static model, followed by defensive fine-tuning to patch exposed vulnerabilities. This sequential approach creates a mismatch -- attackers overfit to obsolete defenses, while defenders perpetually lag behind emerging threats. To address this, we propose Self-RedTeam, an online self-play reinforcement learning algorithm where an attacker and defender agent co-evolve through continuous interaction. We cast safety alignment as a two-player zero-sum game, where a single model alternates between attacker and defender roles -- generating adversarial prompts and safeguarding against them -- while a reward LM adjudicates outcomes. This enables dynamic co-adaptation. Grounded in the game-theoretic framework of zero-sum games, we establish a theoretical safety guarantee which motivates the design of our method: if self-play converges to a Nash Equilibrium, the defender will reliably produce safe responses to any adversarial input. Empirically, Self-RedTeam uncovers more diverse attacks (+21.8% SBERT) compared to attackers trained against static defenders and achieves higher robustness on safety benchmarks (e.g., +65.5% on WildJailBreak) than defenders trained against static attackers. We further propose hidden Chain-of-Thought, allowing agents to plan privately, which boosts adversarial diversity and reduces over-refusals. Our results motivate a shift from reactive patching to proactive co-evolution in LM safety training, enabling scalable, autonomous, and robust self-improvement of LMs via multi-agent reinforcement learning (MARL).
- Abstract(参考訳): 従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する。
これを解決するために,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
安全アライメントは2プレイヤーゼロサムゲームであり、攻撃者と守備者の役割を1つのモデルで交互に行い、敵のプロンプトを生成し、それらに対して保護する。
これにより動的共適応が可能となる。
ゼロサムゲームにおけるゲーム理論の枠組みを基礎として,自己プレイがナッシュ平衡に収束すると,ディフェンダーは敵の入力に対する安全な応答を確実に生成する。
経験的に、Self-RedTeamは、静的攻撃に対してトレーニングされた攻撃者と比較して、より多様な攻撃(+21.8% SBERT)を明らかにし、静的攻撃に対してトレーニングされた攻撃者よりも安全性ベンチマーク(WildJailBreakで+65.5%)の堅牢性を達成している。
さらに我々は、エージェントが個人で計画し、敵の多様性を高め、過剰な拒絶を減らし、隠れた欲求の連鎖を提案する。
本研究は,マルチエージェント強化学習(MARL)によるLMのスケーラブルで自律的で堅牢な自己改善を実現するため,LM安全性トレーニングにおける反応性パッチから積極的共進化への移行を動機とするものである。
関連論文リスト
- ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Learning Cyber Defence Tactics from Scratch with Multi-Agent
Reinforcement Learning [4.796742432333795]
コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。
エージェントは、ホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。
論文 参考訳(メタデータ) (2023-08-25T14:07:50Z) - Adversarial Machine Learning and Defense Game for NextG Signal
Classification with Deep Learning [1.1726528038065764]
NextGシステムは、ユーザ機器の識別、物理層認証、既存ユーザの検出など、さまざまなタスクにディープニューラルネットワーク(DNN)を使用することができる。
本稿では,深層学習に基づくNextG信号分類のための攻撃と防御の相互作用を研究するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-22T15:13:03Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。