論文の概要: MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety
- arxiv url: http://arxiv.org/abs/2602.01539v2
- Date: Fri, 06 Feb 2026 02:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 14:54:43.01718
- Title: MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety
- Title(参考訳): MAGIC:ロバストなLLM安全のための共進化型アタッカー・ディフェンダー・アドバイサルゲーム
- Authors: Xiaoyu Wen, Zhida He, Han Qi, Ziyu Wan, Zhongtian Ma, Ying Wen, Tianhang Zheng, Xingcheng Xu, Chaochao Lu, Qiaosheng Zhang,
- Abstract要約: 本稿では,新しいマルチターンマルチエージェント強化学習フレームワークであるtextbfMAGICを紹介する。
大規模言語モデルの安全性アライメントを敵非対称ゲームとして定式化する。
本フレームワークは, モデルの有用性を損なうことなく, 優れた防衛成功率を示す。
- 参考スコア(独自算出の注目度): 28.246225272659917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring robust safety alignment is crucial for Large Language Models (LLMs), yet existing defenses often lag behind evolving adversarial attacks due to their \textbf{reliance on static, pre-collected data distributions}. In this paper, we introduce \textbf{MAGIC}, a novel multi-turn multi-agent reinforcement learning framework that formulates LLM safety alignment as an adversarial asymmetric game. Specifically, an attacker agent learns to iteratively rewrite original queries into deceptive prompts, while a defender agent simultaneously optimizes its policy to recognize and refuse such inputs. This dynamic process triggers a \textbf{co-evolution}, where the attacker's ever-changing strategies continuously uncover long-tail vulnerabilities, driving the defender to generalize to unseen attack patterns. Remarkably, we observe that the attacker, endowed with initial reasoning ability, evolves \textbf{novel, previously unseen combinatorial strategies} through iterative RL training, underscoring our method's substantial potential. Theoretically, we provide insights into a more robust game equilibrium and derive safety guarantees. Extensive experiments validate our framework's effectiveness, demonstrating superior defense success rates without compromising the helpfulness of the model. Our code is available at https://github.com/BattleWen/MAGIC.
- Abstract(参考訳): 大規模な言語モデル(LLMs)では、堅牢な安全性の確保が不可欠だが、静的で事前コンパイルされたデータ分散の‘textbf{reliance’によって、既存の防御は、敵攻撃の進化に遅れることが多い。
本稿では, LLM の安全アライメントを逆非対称ゲームとして定式化する, マルチターンマルチエージェント強化学習フレームワークである \textbf{MAGIC} を紹介する。
具体的には、攻撃エージェントは、元のクエリを反復的に偽のプロンプトに書き換えることを学び、ディフェンダーエージェントは、そのような入力を認識して拒否するポリシーを同時に最適化する。
この動的なプロセスは \textbf{co-evolution} をトリガーし、攻撃者の絶えず変化する戦略によって長い尾の脆弱性が発見される。
注目すべきは、攻撃者は初期推論能力を備えており、反復的なRLトレーニングを通じて、前例のない組合せ戦略である「textbf{novel」を進化させ、我々のメソッドの実質的なポテンシャルを裏付けることである。
理論的には、より堅牢なゲーム均衡に関する洞察を与え、安全性を保証する。
大規模な実験により、モデルの有用性を損なうことなく、より優れた防衛成功率を示すとともに、我々のフレームワークの有効性を検証した。
私たちのコードはhttps://github.com/BattleWen/MAGIC.comで公開されています。
関連論文リスト
- Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T17:00:16Z) - Safety Alignment of LMs via Non-cooperative Games [51.83432183158595]
現在のアプローチは、逐次的な敵の訓練に頼り、敵のプロンプトを生成し、それらを防御するために微調整されたLMを生成する。
我々は,アタッカーLMとディフェンダーLMの非ゼロサムゲームとしての安全性アライメントを共同でトレーニングする,異なるパラダイムを導入する。
提案手法では、ポイントワイズスコアではなくペアワイズ比較から導出される優先型報酬信号を用いて、より堅牢な監視と、報酬ハッキングの軽減を実現する。
論文 参考訳(メタデータ) (2025-12-23T22:13:14Z) - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections [74.60337113759313]
現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
論文 参考訳(メタデータ) (2025-10-10T05:51:04Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Optimal Attack and Defense for Reinforcement Learning [11.36770403327493]
敵RLでは、外部攻撃者は、環境との相互作用を操作できる。
我々は、攻撃者が予想される報酬を最大化するステルス攻撃を設計する際の問題を示す。
被害者に対する最適な防衛方針は,Stackelbergゲームに対する解決策として計算できる,と我々は主張する。
論文 参考訳(メタデータ) (2023-11-30T21:21:47Z) - Adversary Aware Continual Learning [3.3439097577935213]
Adversaryは、テスト時に特定のタスクやクラスを意図的に忘れるように、少量の誤報をモデルに導入することができる。
我々は,攻撃者のバックドアパターンを人間には認識不能にすることで,攻撃者の主要な強みを隠蔽し,攻撃者の知覚不能パターンを超過する知覚的(強者)パターンを学習することを提案する。
提案手法は,攻撃者の目標タスク,攻撃者の目標クラス,攻撃者の許容できないパターンを知らずに,クラスインクリメンタル学習アルゴリズムの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-04-27T19:49:50Z) - Text Adversarial Purification as Defense against Adversarial Attacks [46.80714732957078]
敵の浄化は敵の攻撃に対する防御機構として成功している。
本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。
本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文 参考訳(メタデータ) (2022-03-27T04:41:55Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。