論文の概要: Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment
- arxiv url: http://arxiv.org/abs/2605.01899v1
- Date: Sun, 03 May 2026 14:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.985099
- Title: Disentangling Intent from Role: Adversarial Self-Play for Persona-Invariant Safety Alignment
- Title(参考訳): 役割から遠ざかるインテント:ペルソナ不変の安全アライメントのための敵対的なセルフプレイ
- Authors: Jiajia Li, Xiaoyu Wen, Zhongtian Ma, Shuyue Hu, Qiaosheng Zhang, Zhen Wang,
- Abstract要約: PIA(Persona-Invariant Alignment)は、攻撃側のPersona Lineage Evolution(PLE)と防衛側のPersona-Invariant Consistency Learning(PICL)による共進化を実現する対戦型セルフプレイフレームワークである。
PICLは、一側KL分割制約を用いて、ペルソナの文脈から安全性決定を分離する構造的分離仮説に基づいている。
実験結果から, ple はラインベースの信用伝搬を利用して, リスクの高いペルソナ空間を効率的に探索することを示した。
- 参考スコア(独自算出の注目度): 13.780689172489934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing capabilities of large language models (LLMs) have driven their widespread deployment across diverse domains, even in potentially high-risk scenarios. Despite advances in safety alignment techniques, current models remain vulnerable to emerging persona-based jailbreak attacks. Existing research on persona-based jailbreak has primarily focused on attack iterations, yet it lacks systemic and mechanistic constraints on the defense side. To address this challenge, we propose Persona-Invariant Alignment (PIA), an adversarial self-play framework that achieves co-evolution through Persona Lineage Evolution (PLE) on the attack side and Persona-Invariant Consistency Learning (PICL) on the defense side. Theoretically, PICL is grounded in the structural separation hypothesis, using a unilateral KL-divergence constraint to enable the structural decoupling of safety decisions from persona context, thereby maintaining safe behavior under persona-based jailbreak attacks. Experimental results demonstrate that PLE efficiently explores high-risk persona spaces by leveraging lineage-based credit propagation. Meanwhile, the PICL defense method significantly reduces the Attack Success Rate (ASR) while preserving the model's general capability, thereby validating the superiority and robustness of this alignment paradigm. Codes are available at https://github.com/JiajiaLi-1130/PIA.
- Abstract(参考訳): 大きな言語モデル(LLM)の能力の増大は、リスクの高いシナリオであっても、さまざまなドメインにまたがる広範なデプロイメントを誘導している。
安全アライメント技術の進歩にもかかわらず、現在のモデルは新興のペルソナベースのジェイルブレイク攻撃に弱いままである。
パーソナをベースとしたジェイルブレイクに関する既存の研究は、主に攻撃の繰り返しに焦点を当てているが、防衛面での体系的および機械的制約は欠如している。
この課題に対処するために,攻撃側のペルソナ線形進化(PLE)と防衛側のペルソナ不変整合学習(PICL)による共進化を実現する対向的なセルフプレイフレームワークであるPersona-Invariant Alignment(PIA)を提案する。
理論的には、PICLは、一方的なKL分割制約を用いて、ペルソナの文脈から安全性決定を分離し、ペルソナベースのジェイルブレイク攻撃による安全な行動を維持する。
実験結果から, ple はラインベースの信用伝搬を利用して, リスクの高いペルソナ空間を効率的に探索することを示した。
一方、PICL防御法は、モデルの汎用性を保ちながらアタック成功率(ASR)を著しく低減し、このアライメントパラダイムの優越性と堅牢性を検証する。
コードはhttps://github.com/JiajiaLi-1130/PIAで公開されている。
関連論文リスト
- Stay in Character, Stay Safe: Dual-Cycle Adversarial Self-Evolution for Safety Role-Playing Agents [14.776514991797699]
本稿では,学習不要なDual-Cycle Adversarial Self-Evolutionフレームワークを提案する。
Persona-Targeted Attacker Cycleは、徐々に強力なジェイルブレイクプロンプトを合成する。
ロールプレイングデフェンダーサイクルは、観測された失敗を階層的な知識ベースに蒸留する。
論文 参考訳(メタデータ) (2026-01-29T11:55:21Z) - SafeBehavior: Simulating Human-Like Multistage Reasoning to Mitigate Jailbreak Attacks in Large Language Models [27.607151919652267]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで素晴らしいパフォーマンスを実現している。
しかし、彼らの成長力は、ビルトインの安全メカニズムを回避するジェイルブレイク攻撃のような潜在的なリスクを増幅する。
本研究では,ヒトの適応的多段階推論過程をシミュレートする新しい階層型ジェイルブレイク防御機構であるSafeBehaviorを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:50:59Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - DOPA: Stealthy and Generalizable Backdoor Attacks from a Single Client under Challenging Federated Constraints [2.139012072214621]
フェデレーテッド・ラーニング(FL)は、プライバシー保護のための協調トレーニングにますます採用されているが、その分散した性質は、バックドア攻撃の影響を受けやすい。
しかし、既存の攻撃方法は、しばしば理想化された仮定に依存し、現実の制約の下で有効に保たない。
異種ローカルトレーニングのダイナミクスをシミュレートし,多種多様な最適化トラジェクトリ間のコンセンサスを求める新しいフレームワークであるDOPAを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:39:12Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。