論文の概要: SafeNeuron: Neuron-Level Safety Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12158v1
- Date: Thu, 12 Feb 2026 16:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.943215
- Title: SafeNeuron: Neuron-Level Safety Alignment for Large Language Models
- Title(参考訳): SafeNeuron: 大規模言語モデルのためのニューロンレベル安全アライメント
- Authors: Zhaoxin Wang, Jiaming Liang, Fengbin Zhu, Weixiang Zhao, Junfeng Fang, Jiayi Ji, Handing Wang, Tat-Seng Chua,
- Abstract要約: ネットワーク全体の安全表現を再分配することによって堅牢性を向上させる,ニューロンレベルの安全アライメントフレームワークであるSafeNeuronを提案する。
実験では、SafeNeuronは、ニューロンのプルーニング攻撃に対する堅牢性を大幅に改善し、レッドチームジェネレータとして再利用されるオープンソースモデルのリスクを低減し、一般的な機能を維持する。
- 参考スコア(独自算出の注目度): 71.50117566279185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) and multimodal LLMs are typically safety-aligned before release to prevent harmful content generation. However, recent studies show that safety behaviors are concentrated in a small subset of parameters, making alignment brittle and easily bypassed through neuron-level attacks. Moreover, most existing alignment methods operate at the behavioral level, offering limited control over the model's internal safety mechanisms. In this work, we propose SafeNeuron, a neuron-level safety alignment framework that improves robustness by redistributing safety representations across the network. SafeNeuron first identifies safety-related neurons, then freezes these neurons during preference optimization to prevent reliance on sparse safety pathways and force the model to construct redundant safety representations. Extensive experiments across models and modalities demonstrate that SafeNeuron significantly improves robustness against neuron pruning attacks, reduces the risk of open-source models being repurposed as red-team generators, and preserves general capabilities. Furthermore, our layer-wise analysis reveals that safety behaviors are governed by stable and shared internal representations. Overall, SafeNeuron provides an interpretable and robust perspective for model alignment.
- Abstract(参考訳): 大型言語モデル (LLM) とマルチモーダル LLM は通常、有害なコンテンツ生成を防ぐためにリリース前に安全に整合している。
しかし、最近の研究では、安全行動はパラメータの小さなサブセットに集中していることが示されており、アライメントは不安定であり、ニューロンレベルの攻撃によって容易にバイパスされる。
さらに、既存のアライメント手法は行動レベルで動作し、モデルの内部安全機構を限定的に制御する。
本研究では,ネットワーク全体の安全表現を再分配することによってロバスト性を向上させる,ニューロンレベルの安全アライメントフレームワークであるSafeNeuronを提案する。
SafeNeuronはまず、安全関連ニューロンを特定し、選好最適化中にこれらのニューロンを凍結し、スパースセーフティパスへの依存を防ぎ、余分な安全表現の構築を強制する。
モデルとモダリティにわたる大規模な実験により、SafeNeuronはニューロンのプルーニング攻撃に対するロバスト性を大幅に改善し、オープンソースモデルがレッドチームジェネレータとして再利用されるリスクを低減し、一般的な機能を維持することが示されている。
さらに, 階層解析により, 安全行動は安定かつ共有された内部表現によって制御されていることが明らかとなった。
全体として、SafeNeuronはモデルアライメントの解釈可能で堅牢な視点を提供する。
関連論文リスト
- Who Transfers Safety? Identifying and Targeting Cross-Lingual Shared Safety Neurons [49.772147495578736]
言語間共有安全ニューロン(SS-Neurons)は、言語間の安全行動を制御する。
本稿では,言語資源分布とモデルアーキテクチャに基づいて,SS-Neuronsをターゲットにしたニューロン指向のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-02-01T15:28:02Z) - Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks [22.059668583508365]
本研究では,FGSN (Fen-Grained Safety Neurons) をトレーニング不要連続投射法で提案し,微調整安全性リスクの低減を図る。
FGSNは本質的に、安全層と神経細胞の間のマルチスケールの相互作用を統合し、スペーサーとより精密な安全ニューロンを局在させる。
論文 参考訳(メタデータ) (2025-08-08T03:20:25Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons [57.07507194465299]
大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。
安全行動の責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。
モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
論文 参考訳(メタデータ) (2024-06-20T09:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。