論文の概要: Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks
- arxiv url: http://arxiv.org/abs/2508.09190v2
- Date: Tue, 19 Aug 2025 09:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.622193
- Title: Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks
- Title(参考訳): LLM微調整リスク軽減のための無訓練連続投射を用いた微粒化安全ニューロン
- Authors: Bing Han, Feifei Zhao, Dongcheng Zhao, Guobin Shen, Ping Wu, Yu Shi, Yi Zeng,
- Abstract要約: 本研究では,FGSN (Fen-Grained Safety Neurons) をトレーニング不要連続投射法で提案し,微調整安全性リスクの低減を図る。
FGSNは本質的に、安全層と神経細胞の間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
- 参考スコア(独自算出の注目度): 12.216665194706708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning as service injects domain-specific knowledge into large language models (LLMs), while challenging the original alignment mechanisms and introducing safety risks. A series of defense strategies have been proposed for the alignment, fine-tuning, and post-fine-tuning phases, where most post-fine-tuning defenses rely on coarse-grained safety layer mapping. These methods lack a comprehensive consideration of both safety layers and fine-grained neurons, limiting their ability to efficiently balance safety and utility. To address this, we propose the Fine-Grained Safety Neurons (FGSN) with Training-Free Continual Projection method to reduce the fine-tuning safety risks. FGSN inherently integrates the multi-scale interactions between safety layers and neurons, localizing sparser and more precise fine-grained safety neurons while minimizing interference with downstream task neurons. We then project the safety neuron parameters onto safety directions, improving model safety while aligning more closely with human preferences. Extensive experiments across multiple fine-tuned LLM models demonstrate that our method significantly reduce harmfulness scores and attack success rates with minimal parameter modifications, while preserving the model's utility. Furthermore, by introducing a task-specific, multi-dimensional heterogeneous safety neuron cluster optimization mechanism, we achieve continual defense and generalization capability against unforeseen emerging safety concerns.
- Abstract(参考訳): サービスとしての微調整は、ドメイン固有の知識を大きな言語モデル(LLM)に注入すると同時に、元のアライメントメカニズムに挑戦し、安全性リスクを導入する。
一連の防衛戦略がアライメント、微調整、微調整後の段階で提案されている。
これらの手法は、安全性層ときめ細かい神経細胞の両方を包括的に考慮しておらず、安全性と実用性を効率的にバランスさせる能力を制限している。
そこで本研究では、FGSN(Fen-Grained Safety Neurons)をトレーニング不要連続投射法で提案し、微調整安全性リスクの低減を図る。
FGSNは本質的に、下流のタスクニューロンとの干渉を最小限にしながら、安全層とニューロン間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
次に、安全ニューロンパラメータを安全方向に投影し、モデル安全性を改善しながら、人間の嗜好とより密に一致させる。
複数の微調整 LLM モデルに対する大規模な実験により,本手法はモデルの有用性を保ちながら,パラメータ修正を最小限に抑えながら,有害度スコアと攻撃成功率を大幅に低減することを示した。
さらに,タスク固有の多次元多次元安全ニューロンクラスタ最適化機構を導入することにより,予期せぬ新興安全問題に対する継続的な防御と一般化を実現する。
関連論文リスト
- NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs [19.133502330591092]
本稿では,スパースニューロンを動的に調整し,安全性と実用性を同時に最適化するフレームワークであるNeuronTuneを提案する。
提案手法は、まず、属性を介して全層にわたる安全クリティカルかつ実用的保存ニューロンを特定し、メタラーニングを用いて、安全ニューロンの活性化を適応的に増幅し、実用ニューロンの活性化を抑制する。
論文 参考訳(メタデータ) (2025-08-13T04:05:28Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-26T14:50:01Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning [37.024666077902225]
ユーザによってアップロードされた悪意のあるデータのごく一部は、微調整プロセスを微妙に操作できるため、アライメントが壊れたモデルになる。
既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。
textbfNeuron-textbfLevel textbfSafety textbfRealignmentを提案する。
論文 参考訳(メタデータ) (2024-12-17T02:59:04Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。