論文の概要: MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety
- arxiv url: http://arxiv.org/abs/2602.01539v1
- Date: Mon, 02 Feb 2026 02:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.844153
- Title: MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety
- Title(参考訳): MAGIC:ロバストなLLM安全のための共進化型アタッカー・ディフェンダー・アドバイサルゲーム
- Authors: Xiaoyu Wen, Zhida He, Han Qi, Ziyu Wan, Zhongtian Ma, Ying Wen, Tianhang Zheng, Xingcheng Xu, Chaochao Lu, Qiaosheng Zhang,
- Abstract要約: 本稿では,新しいマルチターンマルチエージェント強化学習フレームワークであるtextbfMAGICを紹介する。
大規模言語モデルの安全性アライメントを敵非対称ゲームとして定式化する。
本フレームワークは, モデルの有用性を損なうことなく, 優れた防衛成功率を示す。
- 参考スコア(独自算出の注目度): 28.246225272659917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring robust safety alignment is crucial for Large Language Models (LLMs), yet existing defenses often lag behind evolving adversarial attacks due to their \textbf{reliance on static, pre-collected data distributions}. In this paper, we introduce \textbf{MAGIC}, a novel multi-turn multi-agent reinforcement learning framework that formulates LLM safety alignment as an adversarial asymmetric game. Specifically, an attacker agent learns to iteratively rewrite original queries into deceptive prompts, while a defender agent simultaneously optimizes its policy to recognize and refuse such inputs. This dynamic process triggers a \textbf{co-evolution}, where the attacker's ever-changing strategies continuously uncover long-tail vulnerabilities, driving the defender to generalize to unseen attack patterns. Remarkably, we observe that the attacker, endowed with initial reasoning ability, evolves \textbf{novel, previously unseen combinatorial strategies} through iterative RL training, underscoring our method's substantial potential. Theoretically, we provide insights into a more robust game equilibrium and derive safety guarantees. Extensive experiments validate our framework's effectiveness, demonstrating superior defense success rates without compromising the helpfulness of the model. Our code is available at https://github.com/BattleWen/MAGIC.
- Abstract(参考訳): 大規模な言語モデル(LLMs)では、堅牢な安全性の確保が不可欠だが、静的で事前コンパイルされたデータ分散の‘textbf{reliance’によって、既存の防御は、敵攻撃の進化に遅れることが多い。
本稿では, LLM の安全アライメントを逆非対称ゲームとして定式化する, マルチターンマルチエージェント強化学習フレームワークである \textbf{MAGIC} を紹介する。
具体的には、攻撃エージェントは、元のクエリを反復的に偽のプロンプトに書き換えることを学び、ディフェンダーエージェントは、そのような入力を認識して拒否するポリシーを同時に最適化する。
この動的なプロセスは \textbf{co-evolution} をトリガーし、攻撃者の絶えず変化する戦略によって長い尾の脆弱性が発見される。
注目すべきは、攻撃者は初期推論能力を備えており、反復的なRLトレーニングを通じて、前例のない組合せ戦略である「textbf{novel」を進化させ、我々のメソッドの実質的なポテンシャルを裏付けることである。
理論的には、より堅牢なゲーム均衡に関する洞察を与え、安全性を保証する。
大規模な実験により、モデルの有用性を損なうことなく、より優れた防衛成功率を示すとともに、我々のフレームワークの有効性を検証した。
私たちのコードはhttps://github.com/BattleWen/MAGIC.comで公開されています。
関連論文リスト
- Safety Alignment of LMs via Non-cooperative Games [51.83432183158595]
現在のアプローチは、逐次的な敵の訓練に頼り、敵のプロンプトを生成し、それらを防御するために微調整されたLMを生成する。
我々は,アタッカーLMとディフェンダーLMの非ゼロサムゲームとしての安全性アライメントを共同でトレーニングする,異なるパラダイムを導入する。
提案手法では、ポイントワイズスコアではなくペアワイズ比較から導出される優先型報酬信号を用いて、より堅牢な監視と、報酬ハッキングの軽減を実現する。
論文 参考訳(メタデータ) (2025-12-23T22:13:14Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Text Adversarial Purification as Defense against Adversarial Attacks [46.80714732957078]
敵の浄化は敵の攻撃に対する防御機構として成功している。
本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。
本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文 参考訳(メタデータ) (2022-03-27T04:41:55Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。