論文の概要: Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons
- arxiv url: http://arxiv.org/abs/2406.14144v2
- Date: Thu, 23 Oct 2025 15:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:02.021182
- Title: Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons
- Title(参考訳): 安全アライメントの理解に向けて:安全ニューロンの力学的展望
- Authors: Jianhui Chen, Xiaozhi Wang, Zijun Yao, Yushi Bai, Lei Hou, Juanzi Li,
- Abstract要約: 大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。
安全行動の責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。
モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
- 参考スコア(独自算出の注目度): 57.07507194465299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel in various capabilities but pose safety risks such as generating harmful content and misinformation, even after safety alignment. In this paper, we explore the inner mechanisms of safety alignment through the lens of mechanistic interpretability, focusing on identifying and analyzing safety neurons within LLMs that are responsible for safety behaviors. We propose inference-time activation contrasting to locate these neurons and dynamic activation patching to evaluate their causal effects on model safety. Experiments on multiple prevalent LLMs demonstrate that we can consistently identify about $5\%$ safety neurons, and by only patching their activations we can restore over $90\%$ of the safety performance across various red-teaming benchmarks without influencing general ability. The finding of safety neurons also helps explain the ''alignment tax'' phenomenon by revealing that the key neurons for model safety and helpfulness significantly overlap, yet they require different activation patterns for the same neurons. Furthermore, we demonstrate an application of our findings in safeguarding LLMs by detecting unsafe outputs before generation. The source code is available at https://github.com/THU-KEG/SafetyNeuron.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤報を発生させるなどの安全性リスクが生じる。
本稿では、機械的解釈可能性のレンズによる安全アライメントの内部メカニズムを考察し、安全行動に責任を持つLLM内の安全ニューロンの同定と解析に焦点をあてる。
モデル安全性に対する因果的影響を評価するために,これらのニューロンの特定と動的アクティベーションパッチを対比した推論時アクティベーションを提案する。
複数のLLMの実験では、約5\%の安全性ニューロンを一貫して特定でき、それらのアクティベーションのみをパッチすることで、一般的な能力に影響を与えることなく、さまざまなレッドチームベンチマークの安全性性能の90\%以上を復元できることを示した。
安全ニューロンの発見は、モデルの安全性と有用性の鍵となるニューロンが著しく重複していることを明らかにすることで、「調整税」現象を説明するのにも役立ち、同じニューロンに対して異なる活性化パターンを必要とする。
さらに, 生成前の安全でない出力を検出することにより, LLMの保護に本研究の応用を実証した。
ソースコードはhttps://github.com/THU-KEG/SafetyNeuronで公開されている。
関連論文リスト
- Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations [1.0485739694839669]
大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、失敗することもある。
これはメタ認知の程度、つまり、その後の報告と自己制御のために自分自身の認知プロセスを監視する能力を示している。
我々は,LLMの活性化パターンを明示的に報告し,制御する能力を定量化するために,神経科学にインスパイアされた神経フィードバックパラダイムを導入する。
論文 参考訳(メタデータ) (2025-05-19T22:32:25Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Deciphering Functions of Neurons in Vision-Language Models [37.29432842212334]
本研究の目的は、視覚言語モデル(VLM)の内部を探索し、個々のニューロンの機能を理解することである。
入力された視覚トークンやテキストトークンに関してニューロンの活性化を観察し、いくつかの興味深い知見を明らかにした。
我々は、GPT-4oのアシスタントを用いて、ニューロンの説明を自動化するフレームワークを構築した。
視覚ニューロンに対しては,視覚ニューロンに対する説明の信頼性を評価するためのアクティベーションシミュレータを提案する。
論文 参考訳(メタデータ) (2025-02-10T10:00:06Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.693407823048478]
ニューロン実験勾配(NEG)は,活性化の変化が予測にどのように影響するかを捉える。
また, NEGは, スキルニューロン探索により, 多様なプロンプトにまたがる言語スキルを効果的に捉えていることを示す。
さらに分析は、効率性、堅牢性、柔軟性、相互依存といった、NEGベースのスキル表現の重要な特性を強調している。
論文 参考訳(メタデータ) (2024-12-24T00:01:24Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Hebbian Learning based Orthogonal Projection for Continual Learning of
Spiking Neural Networks [74.3099028063756]
我々は,側方接続とヘビアン学習に基づくニューラル操作を用いた新しい手法を開発した。
我々は,反復する側方接続におけるヘビアン学習と反ヘビアン学習が,神経活動の主部分空間を効果的に抽出できることを示した。
我々の手法は、ほとんど忘れることなくニューラルネットワークをスパイクするために一貫して解決する。
論文 参考訳(メタデータ) (2024-02-19T09:29:37Z) - Neuron-Level Knowledge Attribution in Large Language Models [19.472889262384818]
本稿では,重要なニューロンをピンポイントする静的手法を提案する。
他の7つの手法と比較して,本手法は3つの指標にまたがる優れた性能を示す。
また,注目層とフィードフォワード層の両方にわたる6種類の知識を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2023-12-19T13:23:18Z) - Causality Analysis for Evaluating the Security of Large Language Models [9.102606258312246]
大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。
近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。
本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-13T03:35:43Z) - Visual Analytics of Neuron Vulnerability to Adversarial Attacks on
Convolutional Neural Networks [28.081328051535618]
畳み込みニューラルネットワーク(CNN)に対する敵対的攻撃は、高性能CNNを騙して誤った予測をする可能性がある。
我々の研究は、敵の攻撃を理解するための視覚分析手法を導入している。
視覚分析システムは、敵対的攻撃を解釈するための視覚的推論を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-03-06T01:01:56Z) - Adversarial Defense via Neural Oscillation inspired Gradient Masking [0.0]
スパイクニューラルネットワーク(SNN)は、低消費電力、低レイテンシ、生物学的妥当性のために大きな注目を集めている。
本稿では,SNNの安全性を高めるためにバイオインスパイアされた発振機構を組み込んだ新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-11-04T02:13:19Z) - Defense against Backdoor Attacks via Identifying and Purifying Bad
Neurons [36.57541102989073]
本稿では,感染した神経細胞をニューラルネットワークでマークし,浄化するための新しいバックドアディフェンス法を提案する。
良性サリエンス(良性サリエンス)と呼ばれる新しい測定基準は、感染した神経細胞を、バックドアディフェンスで一般的に使用される指標よりも高い精度で識別することができる。
新しいアダプティブ・レギュラー化(AR)機構は、これらの感染した神経細胞の精製を支援するために提案されている。
論文 参考訳(メタデータ) (2022-08-13T01:10:20Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Artificial Neural Variability for Deep Learning: On Overfitting, Noise
Memorization, and Catastrophic Forgetting [135.0863818867184]
人工ニューラルネットワーク(ANV)は、ニューラルネットワークが自然のニューラルネットワークからいくつかの利点を学ぶのに役立つ。
ANVは、トレーニングデータと学習モデルの間の相互情報の暗黙の正則化として機能する。
過度にフィットし、ノイズの記憶をラベル付けし、無視できるコストで破滅的な忘れを効果的に軽減することができる。
論文 参考訳(メタデータ) (2020-11-12T06:06:33Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。