Fugu-MT 論文翻訳(概要): Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models

論文の概要: Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models

arxiv url: http://arxiv.org/abs/2506.07468v1
Date: Mon, 09 Jun 2025 06:35:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.831372
Title: Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models
Title（参考訳）: 安全な言語モデルのためのオンラインセルフプレイ強化学習による移動目標の探索
Authors: Mickel Liu, Liwei Jiang, Yancheng Liang, Simon Shaolei Du, Yejin Choi, Tim Althoff, Natasha Jaques,
Abstract要約: 従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
参考スコア（独自算出の注目度）: 55.28518567702213
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventional language model (LM) safety alignment relies on a reactive, disjoint procedure: attackers exploit a static model, followed by defensive fine-tuning to patch exposed vulnerabilities. This sequential approach creates a mismatch -- attackers overfit to obsolete defenses, while defenders perpetually lag behind emerging threats. To address this, we propose Self-RedTeam, an online self-play reinforcement learning algorithm where an attacker and defender agent co-evolve through continuous interaction. We cast safety alignment as a two-player zero-sum game, where a single model alternates between attacker and defender roles -- generating adversarial prompts and safeguarding against them -- while a reward LM adjudicates outcomes. This enables dynamic co-adaptation. Grounded in the game-theoretic framework of zero-sum games, we establish a theoretical safety guarantee which motivates the design of our method: if self-play converges to a Nash Equilibrium, the defender will reliably produce safe responses to any adversarial input. Empirically, Self-RedTeam uncovers more diverse attacks (+21.8% SBERT) compared to attackers trained against static defenders and achieves higher robustness on safety benchmarks (e.g., +65.5% on WildJailBreak) than defenders trained against static attackers. We further propose hidden Chain-of-Thought, allowing agents to plan privately, which boosts adversarial diversity and reduces over-refusals. Our results motivate a shift from reactive patching to proactive co-evolution in LM safety training, enabling scalable, autonomous, and robust self-improvement of LMs via multi-agent reinforcement learning (MARL).
Abstract（参考訳）: 従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する。これを解決するために,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。安全アライメントは2プレイヤーゼロサムゲームであり、攻撃者と守備者の役割を1つのモデルで交互に行い、敵のプロンプトを生成し、それらに対して保護する。これにより動的共適応が可能となる。ゼロサムゲームにおけるゲーム理論の枠組みを基礎として,自己プレイがナッシュ平衡に収束すると,ディフェンダーは敵の入力に対する安全な応答を確実に生成する。経験的に、Self-RedTeamは、静的攻撃に対してトレーニングされた攻撃者と比較して、より多様な攻撃(+21.8% SBERT)を明らかにし、静的攻撃に対してトレーニングされた攻撃者よりも安全性ベンチマーク(WildJailBreakで+65.5%)の堅牢性を達成している。さらに我々は、エージェントが個人で計画し、敵の多様性を高め、過剰な拒絶を減らし、隠れた欲求の連鎖を提案する。本研究は,マルチエージェント強化学習(MARL)によるLMのスケーラブルで自律的で堅牢な自己改善を実現するため,LM安全性トレーニングにおける反応性パッチから積極的共進化への移行を動機とするものである。

関連論文リスト

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety [28.246225272659917]
本稿では,新しいマルチターンマルチエージェント強化学習フレームワークであるtextbfMAGICを紹介する。大規模言語モデルの安全性アライメントを敵非対称ゲームとして定式化する。本フレームワークは, モデルの有用性を損なうことなく, 優れた防衛成功率を示す。
論文参考訳（メタデータ） (2026-02-02T02:12:28Z)
Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。 SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2026-01-15T17:00:16Z)
Safety Alignment of LMs via Non-cooperative Games [51.83432183158595]
現在のアプローチは、逐次的な敵の訓練に頼り、敵のプロンプトを生成し、それらを防御するために微調整されたLMを生成する。我々は,アタッカーLMとディフェンダーLMの非ゼロサムゲームとしての安全性アライメントを共同でトレーニングする,異なるパラダイムを導入する。提案手法では、ポイントワイズスコアではなくペアワイズ比較から導出される優先型報酬信号を用いて、より堅牢な監視と、報酬ハッキングの軽減を実現する。
論文参考訳（メタデータ） (2025-12-23T22:13:14Z)
The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文参考訳（メタデータ） (2025-10-10T05:51:04Z)
Hammer and Anvil: A Principled Defense Against Backdoors in Federated Learning [19.849567299082306]
フェデレートラーニング(Federated Learning)は、複数のクライアントが協力して機械学習モデルをトレーニングする分散ラーニング技術である。本研究では,まず,既存の敵の能力を超える適応的敵を考案する。そして、基本原理に2つの防御を組み合わせた、原則化された防衛アプローチであるハマーとアンビルを提示する。
論文参考訳（メタデータ） (2025-09-09T18:54:31Z)
A Dynamic Stackelberg Game Framework for Agentic AI Defense Against LLM Jailbreaking [13.343937277604892]
本稿では,大規模言語モデルジェイルブレイクの文脈において,攻撃者とディフェンダー間の相互作用をモデル化するためのStackelbergゲームフレームワークを提案する。本稿では,RRT(Rapidly-Exploring Random Trees)を用いて,敵の探索と防御戦略を統合したエージェントAIソリューション"Purple Agent"を提案する。
論文参考訳（メタデータ） (2025-07-10T22:37:47Z)
ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。 Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文参考訳（メタデータ） (2025-02-16T18:47:41Z)
SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は安全アライメントを回避しモデルに有害な反応をもたらすよう提案されている自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文参考訳（メタデータ） (2024-10-17T05:40:54Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
On the Difficulty of Defending Contrastive Learning against Backdoor Attacks [58.824074124014224]
バックドア攻撃が、特有のメカニズムによってどのように動作するかを示す。本研究は, 対照的なバックドア攻撃の特異性に合わせて, 防御の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2023-12-14T15:54:52Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Learning Cyber Defence Tactics from Scratch with Multi-Agent Reinforcement Learning [4.796742432333795]
コンピュータネットワーク防衛の役割における知的エージェントのチームは、サイバーおよび運動的資産を保護するための有望な道を明らかにする可能性がある。エージェントは、ホストベースの防衛シナリオにおける攻撃活動を共同で緩和する能力に基づいて評価される。
論文参考訳（メタデータ） (2023-08-25T14:07:50Z)
Adversarial Machine Learning and Defense Game for NextG Signal Classification with Deep Learning [1.1726528038065764]
NextGシステムは、ユーザ機器の識別、物理層認証、既存ユーザの検出など、さまざまなタスクにディープニューラルネットワーク(DNN)を使用することができる。本稿では,深層学習に基づくNextG信号分類のための攻撃と防御の相互作用を研究するゲーム理論フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-22T15:13:03Z)
Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文参考訳（メタデータ） (2021-11-23T23:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。