論文の概要: Understanding and Preserving Safety in Fine-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2601.10141v1
- Date: Thu, 15 Jan 2026 07:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.035051
- Title: Understanding and Preserving Safety in Fine-Tuned LLMs
- Title(参考訳): 微調整LDMの安全性の理解と保全
- Authors: Jiawen Zhang, Yangfan Hu, Kejia Chen, Lipeng He, Jiachen Ma, Jian Lou, Dan Li, Jian Liu, Xiaohu Yang, Ruoxi Jia,
- Abstract要約: 微調整データが無害であっても、微調整は安全性を著しく低下させる可能性がある。
低ランクな安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチSPFを提案する。
SPFは、ダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みのほぼすべての安全アライメントを回復する。
- 参考スコア(独自算出の注目度): 20.821783178639063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is an essential and pervasive functionality for applying large language models (LLMs) to downstream tasks. However, it has the potential to substantially degrade safety alignment, e.g., by greatly increasing susceptibility to jailbreak attacks, even when the fine-tuning data is entirely harmless. Despite garnering growing attention in defense efforts during the fine-tuning stage, existing methods struggle with a persistent safety-utility dilemma: emphasizing safety compromises task performance, whereas prioritizing utility typically requires deep fine-tuning that inevitably leads to steep safety declination. In this work, we address this dilemma by shedding new light on the geometric interaction between safety- and utility-oriented gradients in safety-aligned LLMs. Through systematic empirical analysis, we uncover three key insights: (I) safety gradients lie in a low-rank subspace, while utility gradients span a broader high-dimensional space; (II) these subspaces are often negatively correlated, causing directional conflicts during fine-tuning; and (III) the dominant safety direction can be efficiently estimated from a single sample. Building upon these novel insights, we propose safety-preserving fine-tuning (SPF), a lightweight approach that explicitly removes gradient components conflicting with the low-rank safety subspace. Theoretically, we show that SPF guarantees utility convergence while bounding safety drift. Empirically, SPF consistently maintains downstream task performance and recovers nearly all pre-trained safety alignment, even under adversarial fine-tuning scenarios. Furthermore, SPF exhibits robust resistance to both deep fine-tuning and dynamic jailbreak attacks. Together, our findings provide new mechanistic understanding and practical guidance toward always-aligned LLM fine-tuning.
- Abstract(参考訳): ファインチューニングは、下流タスクに大規模言語モデル(LLM)を適用する上で必要不可欠な機能である。
しかし、例えば、微調整データが完全に無害である場合でも、ジェイルブレイク攻撃に対する感受性を大幅に高めることにより、安全性のアライメントを著しく低下させる可能性がある。
ファインチューニングの段階で防衛努力に注目が集まる一方で、既存の手法は永続的な安全ユーティリティジレンマに苦しむ: 安全性の妥協はタスクのパフォーマンスを強調するが、ユーティリティの優先順位付けには必然的に急激な安全性の低下につながる深い微調整が必要である。
本研究は,安全性と実用性を考慮したLCMの幾何学的相互作用に新たな光を当てることにより,このジレンマに対処する。
系統的な経験分析により、(I)安全性勾配は低ランクな部分空間にあり、(I)実用性勾配はより広い高次元空間にまたがっている、(II)これらの部分空間は、しばしば負の相関関係を持ち、微調整中に方向性の衝突を引き起こす、(III)支配的な安全方向を単一のサンプルから効率的に推定できる、という3つの重要な知見が明らかになった。
これらの新しい知見に基づいて、低ランクの安全部分空間と矛盾する勾配成分を明示的に除去する軽量なアプローチである安全保存微調整(SPF)を提案する。
理論的には,SPFは安全ドリフトを拘束しながら有効収束を保証する。
実証的には、SPFはダウンストリームタスクのパフォーマンスを一貫して維持し、敵の微調整シナリオであっても、トレーニング済みの安全アライメントのほとんどを回復する。
さらにSPFは、深い微調整と動的ジェイルブレイク攻撃の両方に対して堅牢な耐性を示す。
本研究は,LLMファインチューニングへの新たな機械的理解と実践的ガイダンスを提供するものである。
関連論文リスト
- Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Preemptive Detection and Steering of LLM Misalignment via Latent Reachability [8.01833277608166]
大規模言語モデル(LLM)は現在、日常的なツールで広く普及しており、有害なコンテンツを生成する傾向について緊急の安全上の懸念を提起している。
我々は, LLM推論に制御理論安全ツールを提供する, 到達可能性に基づくフレームワークであるBRT-Alignを提案する。
論文 参考訳(メタデータ) (2025-09-25T20:15:29Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。