論文の概要: TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2601.18292v1
- Date: Mon, 26 Jan 2026 09:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.754594
- Title: TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment
- Title(参考訳): TriPlay-RL:LLM安全アライメントのためのTri-Role Self-Play Reinforcement Learning
- Authors: Zhewen Tan, Wenhan Yu, Jianfeng Si, Tongxin Liu, Kaiqi Guan, Huiyan Jin, Jiawen Tao, Xiaokun Yuan, Duohe Ma, Xiangzheng Zhang, Tong Yang, Lin Sun,
- Abstract要約: 本稿では,TriPlay-RLと呼ばれるクローズドループ強化学習フレームワークを提案する。
実験結果から,攻撃者は高い出力の多様性を保ちつつ,敵の効率を20%-50%向上させ,防御力は一般的な劣化推論能力のない安全性能で10%-30%向上し,評価器は反復によるきめ細かい判断能力を継続的に改善することがわかった。
- 参考スコア(独自算出の注目度): 10.877753393121429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, safety risks associated with large language models have become increasingly prominent, highlighting the urgent need to mitigate the generation of toxic and harmful content. The mainstream paradigm for LLM safety alignment typically adopts a collaborative framework involving three roles: an attacker for adversarial prompt generation, a defender for safety defense, and an evaluator for response assessment. In this paper, we propose a closed-loop reinforcement learning framework called TriPlay-RL that enables iterative and co-improving collaboration among three roles with near-zero manual annotation. Experimental results show that the attacker preserves high output diversity while achieving a 20%-50% improvement in adversarial effectiveness; the defender attains 10%-30% gains in safety performance without degrading general reasoning capability; and the evaluator continuously refines its fine-grained judgment ability through iterations, accurately distinguishing unsafe responses, simple refusals, and useful guidance. Overall, our framework establishes an efficient and scalable paradigm for LLM safety alignment, enabling continuous co-evolution within a unified learning loop.
- Abstract(参考訳): 近年, 大規模言語モデルに関連する安全性リスクが増大し, 有害・有害なコンテンツの発生を早急に緩和する必要性が浮き彫りになっている。
LLM安全アライメントの主流のパラダイムは、通常、敵の即時生成のための攻撃者、安全防衛のための防御者、応答評価のための評価者という3つの役割を含む協調的なフレームワークを採用する。
本稿では,TriPlay-RLと呼ばれるクローズドループ強化学習フレームワークを提案する。
実験の結果、攻撃者は高い出力の多様性を保ちつつ、敵の効率を20%-50%向上させ、防御者は一般的な推論能力を低下させることなく安全性能を10%-30%向上させ、評価器は繰り返しによるきめ細かい判断能力を改良し、安全でない応答を正確に識別し、簡単な拒絶し、有用なガイダンスを提供する。
全体として、我々のフレームワークは、LLM安全性アライメントのための効率的でスケーラブルなパラダイムを確立し、統一学習ループ内で継続的な共進化を可能にする。
関連論文リスト
- Be Your Own Red Teamer: Safety Alignment via Self-Play and Reflective Experience Replay [19.431152130507648]
大規模言語モデル(LLM)は目覚ましい能力を達成したが、敵のジェイルブレイク攻撃に弱いままである。
本稿では、アタッカー(ジェイルブレイクの発生)とディフェンダー(有害な要求を拒否)の両方として機能するシステムであるセーフティセルフプレイ(SSP)を紹介する。
SSPは、堅牢な防御能力を自律的に進化させ、静的な敵対的データセットでトレーニングされたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T17:00:16Z) - Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - Guardian: Decoupling Exploration from Safety in Reinforcement Learning [12.966077380225856]
ハイブリッドオフラインオンライン強化学習(O2O RL)は、サンプル効率と堅牢な探索の両方を約束するが、オフラインデータとオンラインデータの分散シフトによって不安定に陥る。
安全対策から政策最適化を分離するフレームワーク RLPD-GX を紹介する。
Atari-100k上での最先端性能を実証的に示し, 安全性と安定性が向上し, 正常化平均スコア3.02(+45%)を達成した。
論文 参考訳(メタデータ) (2025-10-26T22:25:47Z) - The Alignment Waltz: Jointly Training Agents to Collaborate for Safety [80.16102254128518]
WaltzRLは、安全アライメントを協調的でポジティブなゲームとして定式化する、新しいマルチエージェント強化学習フレームワークである。
WaltzRLのコアとなるDIR(Dynamic Improvement Reward)は、会話エージェントがフィードバックをいかにうまく組み込むかに基づいて、時間とともに進化する。
我々の実験は5つの多様なデータセットで行われ、WaltzRLは安全でない応答と過度な拒絶の両方を著しく低減することを示した。
論文 参考訳(メタデータ) (2025-10-09T14:03:05Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。