論文の概要: Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection
- arxiv url: http://arxiv.org/abs/2602.07892v1
- Date: Sun, 08 Feb 2026 09:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.855951
- Title: Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection
- Title(参考訳): 継続的学習としての安全アライメント:直交勾配投影によるアライメント税の緩和
- Authors: Guanglong Sun, Siyuan Zhang, Liyuan Wang, Jun Zhu, Hang Su, Yi Zhong,
- Abstract要約: 大規模言語モデル(LLM)は、しばしばアライメント税を課す。
この税は、主に連続的な順序で学習スタイルを忘れることから生じると我々は主張する。
我々は, 塑性と安定性のバランスをとるために, OGPSA (Orthogonal Gradient Projection for Safety Alignment) を提案する。
- 参考スコア(独自算出の注目度): 52.551864761088574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often incur an alignment tax: safety post-training can reduce general utility (e.g., reasoning and coding). We argue that this tax primarily arises from continual-learning-style forgetting in sequential alignment, where distribution shift and conflicting objectives cause safety updates to overwrite pre-trained competencies. Accordingly, we cast safety alignment as a continual learning (CL) problem that must balance plasticity (acquiring safety constraints) and stability (preserving general abilities). We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight method that mitigates interference by constraining each safety update to be orthogonal (in a first-order sense) to a learned subspace capturing general capabilities. Specifically, OGPSA estimates a low-rank capability subspace from gradients on a small reference set and projects the safety gradient onto its orthogonal complement before updating. This produces safety-directed updates that minimally perturb prior knowledge while retaining capacity for alignment. OGPSA is plug-and-play and integrates into standard post-training pipelines without large-scale replay, auxiliary objectives, or retraining. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFT$\rightarrow$DPO settings, OGPSA consistently improves the safety--utility Pareto frontier over standard baselines. For instance, on Qwen2.5-7B-Instruct under SFT$\rightarrow$DPO, OGPSA preserves strong safety while recovering general capability, improving SimpleQA from 0.53\% to 3.03\% and IFEval from 51.94\% to 63.96\%. Our source code is available at \href{https://github.com/SunGL001/OGPSA}{OGPSA}
- Abstract(参考訳): 大規模な言語モデル(LLM)は、しばしばアライメント税(アライメント税)を発生させる。
我々は、この税は、配当のシフトと相反する目的が、事前訓練された能力を上書きする安全更新を引き起こす連続的な学習スタイルの忘れから主に生じると論じる。
そこで我々は,安全アライメントを,可塑性(安全制約の獲得)と安定性(一般能力の維持)のバランスをとる必要がある連続学習(CL)問題として捉えた。
OGPSA(Orthogonal Gradient Projection for Safety Alignment)は、各安全更新を(一階の意味で)直交的に、一般の能力を捉えた学習部分空間に制限することで、干渉を緩和する軽量な手法である。
具体的には、OGPSAは小さな参照セット上の勾配から低ランクの能力部分空間を推定し、更新する前に安全勾配を直交補数に投影する。
これにより、アライメントのキャパシティを維持しながら、事前知識を最小限にゆがめる安全指向の更新が生成される。
OGPSAはプラグイン・アンド・プレイであり、大規模なリプレイ、補助的な目的、またはリトレーニングなしで標準のポストトレーニングパイプラインに統合される。
Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFT$\rightarrow$DPO settings, OGPSAは標準ベースラインよりも安全ユーティリティのParetoフロンティアを一貫して改善している。
例えば、SFT$\rightarrow$DPOの下でのQwen2.5-7B-Instructでは、OGPSAは一般的な能力を回復しながら強力な安全性を維持し、SimpleQAは0.53\%から3.03\%、IFEvalは51.94\%から63.96\%に改善している。
ソースコードは \href{https://github.com/SunGL001/OGPSA}{OGPSA} で公開されている。
関連論文リスト
- Understanding and Preserving Safety in Fine-Tuned LLMs [20.821783178639063]
微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。
低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。
SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
論文 参考訳(メタデータ) (2026-01-15T07:33:13Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization [15.729169158082598]
強化学習(RL)の下での安全アライメントは、しばしば学習した一般的な能力を忘れることに悩まされる。
LLM安全アライメントのための新しいRLフレームワークであるNull-Space constrained Policy Optimization (NSPO)を紹介する。
NSPOはモデルの本来のコア能力を保ちながら、効果的な安全アライメントのための降下方向を保証している。
論文 参考訳(メタデータ) (2025-12-12T09:01:52Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization [6.5225344327304535]
低ランク適応(LoRA)は、大規模言語モデルを効率的に微調整するための標準ツールとなっている。
LoRA更新はアライメントドリフトを誘発し、安全性と行動制約を弱める。
ファインタニング時にアライメントを保存するための原則的フレームワークであるAlignGuard-LoRAを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:45:24Z) - AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin [38.577959886489076]
大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T05:59:48Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。