論文の概要: Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.11391v1
- Date: Fri, 12 Dec 2025 09:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.707872
- Title: Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization
- Title(参考訳): Null-Space Constrained Policy Optimization によるセーフティアライメント税の緩和
- Authors: Yifan Niu, Han Xiao, Dongyi Liu, Nuo Chen, Jia Li,
- Abstract要約: 強化学習(RL)の下での安全アライメントは、しばしば学習した一般的な能力を忘れることに悩まされる。
LLM安全アライメントのための新しいRLフレームワークであるNull-Space constrained Policy Optimization (NSPO)を紹介する。
NSPOはモデルの本来のコア能力を保ちながら、効果的な安全アライメントのための降下方向を保証している。
- 参考スコア(独自算出の注目度): 15.729169158082598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed in real-world applications, it is important to ensure their behaviors align with human values, societal norms, and ethical principles. However, safety alignment under Reinforcement Learning (RL) often suffers from forgetting learned general abilities, which is also known as the alignment tax. To address this issue, we introduce Null-Space constrained Policy Optimization (NSPO), a novel RL framework for LLM safety alignment while preserving their core abilities. The safety policy gradients are geometrically projected into the null space of general tasks, thereby mitigating the safety alignment tax. In addition, we theoretically prove that NSPO preserves the model's original core capabilities, while still guaranteeing a descent direction for effective safety alignment. Extensive experiments demonstrate that NSPO outperforms existing methods by a large margin, achieving state-of-the-art safety performance without sacrificing accuracy on general tasks, including math, code, and instruction-following tasks. Notably, NSPO is data-efficient and only requires 40% of public human-annotated safety data from PKU-SafeRLHF to achieve promising safety performance, without a large amount of mixed general tasks data in existing alignment methods.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界のアプリケーションにますます導入されるにつれて、その行動が人間の価値観や社会的規範、倫理的原則と一致していることを保証することが重要である。
しかしながら、強化学習(RL)の下での安全調整は、しばしば、アライメント税(アライメント税)として知られる、学習した一般的な能力を忘れることに悩まされる。
この問題に対処するため,LLM安全アライメントのための新しいRLフレームワークであるNull-Space constrained Policy Optimization (NSPO)を導入する。
安全政策勾配は、一般タスクのヌル空間に幾何学的に投影され、安全アライメント税を緩和する。
さらに、NSPOがモデル本来のコア能力を保ちながら、効果的な安全アライメントのための降下方向を保証していることを理論的に証明する。
大規模な実験により、NSPOは既存の手法を大きなマージンで上回り、数学、コード、命令追従タスクなどの一般的なタスクにおいて精度を犠牲にすることなく最先端の安全性能を達成することを示した。
特に、NSPOはデータ効率が良く、既存のアライメント手法で大量の複合的な汎用タスクデータを必要とせず、PKU-SafeRLHFからのパブリックな人手による安全データの40%しか必要としない。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Safe Exploration in Reinforcement Learning: A Generalized Formulation
and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。
提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-05T00:47:09Z) - SafeDreamer: Safe Reinforcement Learning with World Models [7.773096110271637]
本稿では,ラグランジュ的手法を世界モデル計画プロセスに取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
本手法は,低次元および視覚のみの入力にまたがる様々なタスクにおいて,ほぼゼロコストの性能を実現する。
論文 参考訳(メタデータ) (2023-07-14T06:00:08Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。