論文の概要: AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin
- arxiv url: http://arxiv.org/abs/2506.08473v2
- Date: Wed, 11 Jun 2025 02:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.061232
- Title: AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin
- Title(参考訳): AsFT:狭い安全盆地内におけるLLM微調整時の安全確保
- Authors: Shuo Yang, Qihui Zhang, Yuyang Liu, Yue Huang, Xiaojun Jia, Kunpeng Ning, Jiayu Yao, Jigang Wang, Hailiang Dai, Yibing Song, Li Yuan,
- Abstract要約: 大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
- 参考スコア(独自算出の注目度): 38.577959886489076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are vulnerable to safety risks during fine-tuning, where small amounts of malicious or harmless data can compromise safeguards. In this paper, building on the concept of alignment direction -- defined by the weight difference between aligned and unaligned models -- we observe that perturbations along this direction preserve model safety. In contrast, perturbations along directions orthogonal to this alignment are strongly linked to harmful direction perturbations, rapidly degrading safety and framing the parameter space as a narrow safety basin. Based on this insight, we propose a methodology for safety fine-tuning called AsFT (Anchoring Safety in Fine-Tuning), which integrates a regularization term into the training objective. This term uses the alignment direction as an anchor to suppress updates in harmful directions, ensuring that fine-tuning is constrained within the narrow safety basin. Extensive experiments on multiple datasets show that AsFT outperforms Safe LoRA, reducing harmful behavior by 7.60 percent, improving model performance by 3.44 percent, and maintaining robust performance across various experimental settings. Code is available at https://github.com/PKU-YuanGroup/AsFT
- Abstract(参考訳): 大規模言語モデル(LLM)は、少数の悪意のあるデータや無害なデータが安全を損なう可能性がある、微調整中の安全リスクに対して脆弱である。
本稿では、アライメント方向(アライメントモデルとアンアライメントモデルとの重み差で定義される)の概念に基づいて、この方向に沿った摂動がこのモデルの安全性を保っていることを観察する。
対照的に、このアライメントに直交する方向の摂動は、有害な方向の摂動と強く結びついており、安全を急速に低下させ、パラメータ空間を狭い安全盆地としてフレーミングしている。
この知見に基づき, トレーニング目標に正規化項を組み込んだ AsFT (Anchoring Safety in Fine-Tuning) と呼ばれる安全微調整手法を提案する。
この用語は、アライメント方向をアンカーとして使用し、有害な方向の更新を抑制し、狭い安全盆地内で微調整が制限されることを保証する。
複数のデータセットに対する大規模な実験によると、AsFTはSafe LoRAを上回り、有害な振る舞いを7.60%削減し、モデルパフォーマンスを3.44%改善し、さまざまな実験環境で堅牢なパフォーマンスを維持している。
コードはhttps://github.com/PKU-YuanGroup/AsFTで入手できる。
関連論文リスト
- Why LLM Safety Guardrails Collapse After Fine-tuning: A Similarity Analysis Between Alignment and Fine-tuning Datasets [64.96967819446553]
本稿では,上流アライメントデータセットと下流微調整タスクの表現類似性のレンズによる安全ガードレールの劣化について検討する。
これらのデータセット間の高い類似性は、安全ガードレールを著しく弱め、モデルがジェイルブレイクの影響を受けやすくする。
これら2種類のデータセット間の類似性が低いと、より堅牢なモデルが得られ、有害度スコアが最大10.33%減少する。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment [4.181987990532721]
ガードレールモデルやアライメントトレーニングなど、AIの安全性を保証するための既存のパラダイムは、推論効率または開発柔軟性を損なうことが多い。
タスク最適化ベースモデルから安全性特異的な計算を分離することで、これらの課題に対処する新しいフレームワークであるDisentangled Safety Adapters (DSA) を導入する。
DSAは、ベースモデルの内部表現を活用する軽量アダプタを使用し、推論コストに最小限の影響を伴って、多種多様なフレキシブルな安全性機能を実現する。
論文 参考訳(メタデータ) (2025-05-30T19:11:52Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [38.69546578029726]
本稿では,タスクユーティリティを維持しながら安全性を保った後調整フレームワークであるSafeMERGEを提案する。
Llama-2-7B-Chat および Qwen-2-7B-Instruct モデルに対して, SafeMERGE の評価を行った。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.93821289892195]
IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。
IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。
この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-15T03:58:38Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。