論文の概要: NeST: Neuron Selective Tuning for LLM Safety
- arxiv url: http://arxiv.org/abs/2602.16835v1
- Date: Wed, 18 Feb 2026 20:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.3225
- Title: NeST: Neuron Selective Tuning for LLM Safety
- Title(参考訳): ネスト:LLM安全のためのニューロン選択チューニング
- Authors: Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi,
- Abstract要約: 大規模言語モデル(LLM)の責任ある展開には、安全性の調整が不可欠である。
我々は、少数の安全関連ニューロンを選択的に適応させることにより、拒絶行動を強化する軽量な構造対応型安全アライメントフレームワークNeSTを提案する。
我々はNeSTを、フル微調整、LORAに基づく微調整、オープンウェイトLLM10のサーキットブレーカーの3つの主要なベースラインに対してベンチマークした。
- 参考スコア(独自算出の注目度): 12.78786094112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains. We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.
- Abstract(参考訳): 大規模な言語モデル(LLM)のデプロイには、安全性の調整が不可欠である。
しかし、既存のアプローチは、モデルファミリをまたいだ更新、監査、保守にコストがかかる重厚な微調整に依存していることが多い。
完全な微調整は、計算とストレージのオーバーヘッドを著しく増加させ、不整合安全性向上のためのLoRA貿易効率のようなパラメータ効率のよい手法は、設計上の選択に敏感である。
サーキットブレーカーのような安全介入機構は、モデルウェイトを変更することなく、安全でない出力を減らすが、安全行動を管理する内部表現を直接形成または保存しない。
これらの制限は、特にモデルが頻繁に進化する、あるいは新しいポリシーやドメインに適応する必要がある設定において、迅速で信頼性の高い安全性更新を妨げます。
我々は,少数の安全関連ニューロンを選択的に適応させ,残りのモデルを凍結させ,拒絶行動を強化する軽量な構造対応型安全アライメントフレームワークNeSTを提案する。
NeSTは、機能的に一貫性のある安全ニューロンをクラスタ化し、クラスタ内で共有されたアップデートを強制することによって、パラメータの更新を内部の安全行動の組織と整合させる。
我々はNeSTを、複数のモデルファミリとサイズにまたがる10のオープンウェイトLLMにわたるフルファインチューニング、LoRAベースのファインチューニング、サーキットブレーカーの3つの主要なベースラインに対してベンチマークした。
評価された全てのモデル全体で、NeSTは攻撃の成功率を平均44.5%から4.36%に下げ、安全でない世代を90.2%削減した。
これは、完全な微調整に比べて17,310倍の更新パラメータが減少し、LoRAと比較して9.25倍の削減が達成され、アライメントの安全性が向上した。
関連論文リスト
- SafeNeuron: Neuron-Level Safety Alignment for Large Language Models [71.50117566279185]
ネットワーク全体の安全表現を再分配することによって堅牢性を向上させる,ニューロンレベルの安全アライメントフレームワークであるSafeNeuronを提案する。
実験では、SafeNeuronは、ニューロンのプルーニング攻撃に対する堅牢性を大幅に改善し、レッドチームジェネレータとして再利用されるオープンソースモデルのリスクを低減し、一般的な機能を維持する。
論文 参考訳(メタデータ) (2026-02-12T16:40:05Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks [22.059668583508365]
本研究では,FGSN (Fen-Grained Safety Neurons) をトレーニング不要連続投射法で提案し,微調整安全性リスクの低減を図る。
FGSNは本質的に、安全層と神経細胞の間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
論文 参考訳(メタデータ) (2025-08-08T03:20:25Z) - LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - AsFT: Anchoring Safety During LLM Fine-Tuning Within Narrow Safety Basin [38.577959886489076]
大規模言語モデル(LLM)は、微調整中に安全性のリスクに対して脆弱である。
AsFT(Anchoring Safety in Fine-Tuning)と呼ばれる安全微調整手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T05:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。