論文の概要: LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion
- arxiv url: http://arxiv.org/abs/2602.00038v1
- Date: Mon, 19 Jan 2026 03:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.248999
- Title: LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion
- Title(参考訳): LSSF:低軌道安全性サブスペース融合による大規模言語モデルの安全性アライメント
- Authors: Guanghao Zhou, Panjia Qiu, Cen Chen, Hongyu Li, Mingyuan Chu, Xin Zhang, Jun Zhou,
- Abstract要約: 大きな言語モデル(LLM)の安全性メカニズムは、有害なコンテンツのないデータセットの微調整でさえも、その安全性能力を損なう可能性があるため、顕著な脆弱性を示す。
LSSF, underline-Rank underlineSafety underlineSubspace underlineFusion。
提案手法は,低ランクプロジェクション行列の構築により,LLMの安全性情報の低ランク特性を利用する。
- 参考スコア(独自算出の注目度): 16.434293020863592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The safety mechanisms of large language models (LLMs) exhibit notable fragility, as even fine-tuning on datasets without harmful content may still undermine their safety capabilities. Meanwhile, existing safety alignment methods predominantly rely on the fine-tuning process, which inadvertently leads to the increased complexity and computational resources required. To address these issues, we introduce LSSF, a novel safety re-alignment framework with \underline{L}ow-Rank \underline{S}afety \underline{S}ubspace \underline{F}usion. Our proposed method exploits the low-rank characteristics of safety information in LLMs by constructing a low-rank projection matrix to extract the principal components of safety vectors. Notably, this projection matrix represents the low-rank safety subspace of the LLMs, which we have observed to remain stable during fine-tuning process and is isolated from the model's general capabilities. These principal components are used to effectively restore safety alignment when combined with fine-tuned LLMs through linear arithmetic. Additionally, to account for the varying encoding densities of safety information across different layers of LLMs, we propose a novel metric called safety singular value entropy. This metric quantifies the encoding density and allows for the dynamic computation of the safety-critical rank for each safety vector. Extensive experiments demonstrate that our proposed post-hoc alignment method can effectively restore the safety alignment of fine-tuned models with minimal impact on their performance in downstream tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)の安全性メカニズムは、有害なコンテンツのないデータセットの微調整でさえも、その安全性能力を損なう可能性があるため、顕著な脆弱性を示す。
一方、既存の安全アライメント手法は、必然的に複雑化と計算資源の増大につながる微調整プロセスに大きく依存している。
これらの問題に対処するために, LSSF を導入し, 新たに \underline{L}ow-Rank \underline{S}afety \underline{S}ubspace \underline{F}usion
提案手法は,低ランクプロジェクション行列を構築し,安全ベクトルの主成分を抽出することにより,LLMの安全性情報の低ランク特性を利用する。
特に、このプロジェクション行列はLLMの低ランク安全性部分空間を表しており、我々は微調整過程において安定であり、モデルの一般的な機能から分離されていることを観察している。
これらの主成分は、線形算術により微調整LDMと組み合わせて安全アライメントを効果的に復元するために用いられる。
さらに,LLMの異なる層にまたがる安全性情報の符号化密度の変化を考慮し,安全性特異値エントロピーという新しい指標を提案する。
この計量は符号化密度を定量化し、各安全ベクトルに対する安全臨界ランクの動的計算を可能にする。
大規模実験により,提案手法は下流作業における性能への影響を最小限に抑えた微調整モデルの安全アライメントを効果的に復元できることが実証された。
関連論文リスト
- LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - A safety realignment framework via subspace-oriented model fusion for large language models [22.588716190505963]
サブスペース指向モデル融合(SOMF)による安全性向上フレームワークを提案する。
我々のアプローチは、各微調整されたモデルの重みから全てのタスクベクトルを遠ざけることから始まる。
次に,これらのベクトル内の安全関連領域をサブスペースマスキング手法により同定する。
論文 参考訳(メタデータ) (2024-05-15T03:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。