論文の概要: Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints
- arxiv url: http://arxiv.org/abs/2604.12384v1
- Date: Tue, 14 Apr 2026 07:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.311995
- Title: Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints
- Title(参考訳): 重み付き重みとアクティベーション制約による大規模言語モデルにおける安全ドリフトの防止
- Authors: Songping Peng, Zhiheng Zhang, Daojian Zeng, Lincheng Jiang, Xieping Gao,
- Abstract要約: Coupled Weight and Activation Constraints (CWAC) は、ウェイト更新に事前計算された安全部分空間を同時に適用する新しいアプローチである。
CWACは、微調整精度に最小限の影響を伴って、最低の有害スコアを一貫して達成する。
- 参考スコア(独自算出の注目度): 19.721346201616782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment in Large Language Models (LLMs) remains highly fragile during fine-tuning, where even benign adaptation can degrade pre-trained refusal behaviors and enable harmful responses. Existing defenses typically constrain either weights or activations in isolation, without considering their coupled effects on safety. In this paper, we first theoretically demonstrate that constraining either weights or activations alone is insufficient for safety preservation. To robustly preserve safety alignment, we propose Coupled Weight and Activation Constraints (CWAC), a novel approach that simultaneously enforces a precomputed safety subspace on weight updates and applies targeted regularization to safety-critical features identified by sparse autoencoders. Extensive experiments across four widely used LLMs and diverse downstream tasks show that CWAC consistently achieves the lowest harmful scores with minimal impact on fine-tuning accuracy, substantially outperforming strong baselines even under high harmful data ratios.
- Abstract(参考訳): 大規模言語モデル(LLM)における安全性の整合性は、微調整の間も非常に脆弱であり、良心的適応でさえ、事前訓練された拒絶動作を劣化させ、有害な応答を可能にする。
既存の防御は、通常、安全に結びついた影響を考慮せずに、単独で重量または活性化を制限している。
本稿では,まず,重みとアクティベーションのみの制約が安全維持に不十分であることを理論的に示す。
安全アライメントを頑健に維持するために,重み更新に事前計算された安全部分空間を同時に適用し,スパースオートエンコーダによって識別される安全クリティカルな特徴に対してターゲット正則化を適用する,結合重みと活性化制約(CWAC)を提案する。
広範に使用されている4つのLSMと多様な下流タスクにわたる広範囲な実験により、CWACは極端に有害なスコアを達成し、微調整精度に最小限の影響を及ぼし、高い有害なデータ比の下でもかなり高いベースラインを上回ります。
関連論文リスト
- Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning [4.839980912290382]
大規模言語モデル(LLM)は、ダウンストリームタスクでうまく機能するために細調整(FT)を必要とすることが多い。
FTは、トレーニングデータセットが良性データのみを含む場合でも、安全アライメントドリフトを誘導することができる。
本稿では,安全トークンに対するモデルの信頼性を安定化させる,制約付きトークンによる安全アライメントの保存(PACT)という微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T03:42:55Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance [20.0828672005664]
安全アライメントは, 単一の安全事例のみで完全に回復可能であることを示す。
安全勾配の低ランク構造を明らかにし,なぜこのような効率的な補正が可能かを説明する。
論文 参考訳(メタデータ) (2026-01-05T08:26:34Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。