論文の概要: Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment
- arxiv url: http://arxiv.org/abs/2512.24263v1
- Date: Tue, 30 Dec 2025 14:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.402879
- Title: Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment
- Title(参考訳): リスク認識型ステップワイドアライメントによる制約付き言語モデルポリシーの最適化
- Authors: Lijun Zhang, Lin Li, Wei Wei, Yajie Qi, Huizhong Song, Jun Wang, Yaodong Yang, Jiye Liang,
- Abstract要約: 本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
- 参考スコア(独自算出の注目度): 49.2305683068875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When fine-tuning pre-trained Language Models (LMs) to exhibit desired behaviors, maintaining control over risk is critical for ensuring both safety and trustworthiness. Most existing safety alignment methods, such as Safe RLHF and SACPO, typically operate under a risk-neutral paradigm that is insufficient to address the risks arising from deviations from the reference policy and offers limited robustness against rare but potentially catastrophic harmful behaviors. To address this limitation, we propose Risk-aware Stepwise Alignment (RSA), a novel alignment method that explicitly incorporates risk awareness into the policy optimization process by leveraging a class of nested risk measures. Specifically, RSA formulates safety alignment as a token-level risk-aware constrained policy optimization problem and solves it through a stepwise alignment procedure that yields token-level policy updates derived from the nested risk measures. This design offers two key benefits: (1) it mitigates risks induced by excessive model shift away from a reference policy, and (2) it explicitly suppresses low-probability yet high-impact harmful behaviors. Moreover, we provide theoretical analysis on policy optimality under mild assumptions. Experimental results demonstrate that our method achieves high levels of helpfulness while ensuring strong safety and significantly suppresses tail risks, namely low-probability yet high-impact unsafe responses.
- Abstract(参考訳): 訓練済み言語モデル(LM)を微調整して望ましい行動を示す場合、安全と信頼性の両方を確保するためにリスクの制御を維持することが重要である。
Safe RLHF や SACPO のような既存の安全アライメント手法は、通常、基準政策からの逸脱に起因するリスクに対処するには不十分なリスク中立パラダイムの下で運用され、稀だが破滅的な有害な行動に対して限定的な堅牢性を提供する。
この制限に対処するために,リスク対応段階的アライメント(RSA)を提案する。これは,リスク意識を政策最適化プロセスに明示的に組み込んだ,ネストしたリスク対策のクラスを活用する新しいアライメント手法である。
具体的には、RSAは、トークンレベルのリスク対応制約付きポリシー最適化問題として安全アライメントを定式化し、ネストされたリスク対策からトークンレベルのポリシー更新を生成する段階的なアライメント手順によって解決する。
本設計は,(1)過剰なモデルシフトによって引き起こされるリスクを基準方針から軽減し,(2)低確率かつ高影響の有害な行動を明示的に抑制する,という2つの主要な利点を提供する。
さらに、軽度の前提条件下での政策最適性に関する理論的分析を行う。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成し, テールリスクを著しく抑制することを示す。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning [4.8342038441006805]
静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。
我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-07-05T04:41:54Z) - RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards [55.76285458905577]
大規模言語モデル(LLM)は、意図的な安全確保努力にもかかわらず、脆弱性を示し続けている。
ポリシー違反のリスクから保護するために、外部ガードモデルによるシステムレベルのモデレーションが一般的な緩和戦略として現れている。
我々は、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードであるRSafeを提案する。
論文 参考訳(メタデータ) (2025-06-09T13:20:04Z) - Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Is Risk-Sensitive Reinforcement Learning Properly Resolved? [54.00107408956307]
本稿では,RSRL問題に対するポリシー改善のための新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
論文 参考訳(メタデータ) (2023-07-02T11:47:21Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures [17.668631383216233]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
政策グラディエント(PG)法がリスクニュートラルな場合と同じグローバル収束を保証するかどうかは不明だ。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。