論文の概要: A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space
- arxiv url: http://arxiv.org/abs/2510.14301v1
- Date: Thu, 16 Oct 2025 04:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.725941
- Title: A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space
- Title(参考訳): 安全保護のためのガードレール:安全に敏感なサブスペースが無害なヌルスペースと出会うとき
- Authors: Bingjie Zhang, Yibo Yang, Renzhe, Dandan Guo, Jindong Gu, Philip Torr, Bernard Ghanem,
- Abstract要約: GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
- 参考スコア(独自算出の注目度): 90.75923625373888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in diverse tasks, yet their safety alignment remains fragile during adaptation. Even when fine-tuning on benign data or with low-rank adaptation, pre-trained safety behaviors are easily degraded, leading to harmful responses in the fine-tuned models. To address this challenge, we propose GuardSpace, a guardrail framework for preserving safety alignment throughout fine-tuning, composed of two key components: a safety-sensitive subspace and a harmful-resistant null space. First, we explicitly decompose pre-trained weights into safety-relevant and safety-irrelevant components using covariance-preconditioned singular value decomposition, and initialize low-rank adapters from the safety-irrelevant ones, while freezing safety-relevant components to preserve their associated safety mechanism. Second, we construct a null space projector that restricts adapter updates from altering safe outputs on harmful prompts, thereby maintaining the original refusal behavior. Experiments with various pre-trained models on multiple downstream tasks demonstrate that GuardSpace achieves superior performance over existing methods. Notably, for Llama-2-7B-Chat fine-tuned on GSM8K, GuardSpace outperforms the state-of-the-art method AsFT, reducing the average harmful score from 14.4% to 3.6%, while improving the accuracy from from 26.0% to 28.0%.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なタスクにおいて顕著な成功を収めているが、それらの安全性は適応中にも脆弱である。
良性データや低ランク適応による微調整であっても、事前訓練された安全行動は容易に劣化し、微調整されたモデルでは有害な応答をもたらす。
この課題に対処するために、安全に敏感なサブスペースと有害なヌルスペースという2つの重要なコンポーネントからなる、微調整全体にわたって安全アライメントを維持するためのガードレールフレームワークであるGuardSpaceを提案する。
まず、共分散条件の特異値分解を用いて、予め訓練した重量を安全関連成分と安全関連成分に明示的に分解し、安全関連成分から低ランクアダプタを初期化し、安全関連成分を凍結して安全機構を保存した。
第2に、有害なプロンプトに対して安全な出力を変更することによる、アダプタ更新を制限するヌルスペースプロジェクタを構築し、元の拒絶動作を維持する。
複数のダウンストリームタスクで事前トレーニングされたさまざまなモデルによる実験は、GuardSpaceが既存のメソッドよりも優れたパフォーマンスを実現していることを示している。
特に、GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れ、平均有害スコアは14.4%から3.6%に減少し、精度は26.0%から28.0%に向上した。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin [38.577959886489076]
大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T05:59:48Z) - Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment [4.181987990532721]
ガードレールモデルやアライメントトレーニングなど、AIの安全性を保証するための既存のパラダイムは、推論効率または開発柔軟性を損なうことが多い。
タスク最適化ベースモデルから安全性特異的な計算を分離することで、これらの課題に対処する新しいフレームワークであるDisentangled Safety Adapters (DSA) を導入する。
DSAは、ベースモデルの内部表現を活用する軽量アダプタを使用し、推論コストに最小限の影響を伴って、多種多様なフレキシブルな安全性機能を実現する。
論文 参考訳(メタデータ) (2025-05-30T19:11:52Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。