論文の概要: Stay in Character, Stay Safe: Dual-Cycle Adversarial Self-Evolution for Safety Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2602.13234v1
- Date: Thu, 29 Jan 2026 11:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.571887
- Title: Stay in Character, Stay Safe: Dual-Cycle Adversarial Self-Evolution for Safety Role-Playing Agents
- Title(参考訳): 二重サイクル型自己進化型ロールプレイングエージェント
- Authors: Mingyang Liao, Yichen Wan, shuchen wu, Chenxi Miao, Xin Shen, Weikang Li, Yang Li, Deguo Xia, Jizhou Huang,
- Abstract要約: 本稿では,学習不要なDual-Cycle Adversarial Self-Evolutionフレームワークを提案する。
Persona-Targeted Attacker Cycleは、徐々に強力なジェイルブレイクプロンプトを合成する。
ロールプレイングデフェンダーサイクルは、観測された失敗を階層的な知識ベースに蒸留する。
- 参考スコア(独自算出の注目度): 14.776514991797699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based role-playing has rapidly improved in fidelity, yet stronger adherence to persona constraints commonly increases vulnerability to jailbreak attacks, especially for risky or negative personas. Most prior work mitigates this issue with training-time solutions (e.g., data curation or alignment-oriented regularization). However, these approaches are costly to maintain as personas and attack strategies evolve, can degrade in-character behavior, and are typically infeasible for frontier closed-weight LLMs. We propose a training-free Dual-Cycle Adversarial Self-Evolution framework with two coupled cycles. A Persona-Targeted Attacker Cycle synthesizes progressively stronger jailbreak prompts, while a Role-Playing Defender Cycle distills observed failures into a hierarchical knowledge base of (i) global safety rules, (ii) persona-grounded constraints, and (iii) safe in-character exemplars. At inference time, the Defender retrieves and composes structured knowledge from this hierarchy to guide generation, producing responses that remain faithful to the target persona while satisfying safety constraints. Extensive experiments across multiple proprietary LLMs show consistent gains over strong baselines on both role fidelity and jailbreak resistance, and robust generalization to unseen personas and attack prompts.
- Abstract(参考訳): LLMベースのロールプレイングは、忠実度が急速に向上したが、ペルソナの制約に固執することで、特にリスクやネガティブなペルソナに対するジェイルブレイク攻撃に対する脆弱性が増大する。
以前の作業のほとんどは、トレーニング時のソリューション(例えば、データキュレーションやアライメント指向の正規化)でこの問題を軽減する。
しかしながら、これらのアプローチは、ペルソナや攻撃戦略が進化するにつれて維持し、キャラクタ内での振る舞いを低下させることができ、フロンティアクローズトウェイトLSMでは通常不可能である。
本稿では,2つのサイクルを組み合わしたトレーニングフリーなデュアルサイクル適応型自己進化フレームワークを提案する。
Persona-Targeted Attacker Cycleは、徐々に強力なジェイルブレイクプロンプトを合成し、Role-Playing Defender Cycleは、障害を階層的な知識ベースに抽出する。
(i)グローバル・セーフティ・ルール
(二)人格的制約、及び
三 キャラクタ内外見の安全。
推論時に、デフェンダーは、この階層から構造化された知識を検索して生成し、安全制約を満たしつつ、対象のペルソナに忠実な応答を生成する。
複数のプロプライエタリなLSMの広範な実験は、役割の忠実さとジェイルブレイク抵抗の両方に対する強いベースラインよりも一貫して向上し、見えないペルソナやアタックプロンプトへの堅牢な一般化を示している。
関連論文リスト
- Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T17:00:16Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。