論文の概要: Finding Safety Neurons in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.14144v1
- Date: Thu, 20 Jun 2024 09:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:31:01.263550
- Title: Finding Safety Neurons in Large Language Models
- Title(参考訳): 大規模言語モデルにおける安全性ニューロンの発見
- Authors: Jianhui Chen, Xiaozhi Wang, Zijun Yao, Yushi Bai, Lei Hou, Juanzi Li,
- Abstract要約: 大規模言語モデル(LLM)は様々な能力に優れるが、有害なコンテンツや誤情報を生成するなどの安全性のリスクも生じる。
本稿では,機械的解釈可能性の観点から,安全アライメントの内部メカニズムを考察する。
そこで本研究では,これらのニューロンの同定と動的活性化パッチングを対比した生成時活性化法を提案し,その因果効果を評価する。
- 参考スコア(独自算出の注目度): 44.873565067389016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel in various capabilities but also pose safety risks such as generating harmful content and misinformation, even after safety alignment. In this paper, we explore the inner mechanisms of safety alignment from the perspective of mechanistic interpretability, focusing on identifying and analyzing safety neurons within LLMs that are responsible for safety behaviors. We propose generation-time activation contrasting to locate these neurons and dynamic activation patching to evaluate their causal effects. Experiments on multiple recent LLMs show that: (1) Safety neurons are sparse and effective. We can restore $90$% safety performance with intervention only on about $5$% of all the neurons. (2) Safety neurons encode transferrable mechanisms. They exhibit consistent effectiveness on different red-teaming datasets. The finding of safety neurons also interprets "alignment tax". We observe that the identified key neurons for safety and helpfulness significantly overlap, but they require different activation patterns of the shared neurons. Furthermore, we demonstrate an application of safety neurons in detecting unsafe outputs before generation. Our findings may promote further research on understanding LLM alignment. The source codes will be publicly released to facilitate future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な能力に優れるが、安全アライメント後にも有害なコンテンツや誤情報を生成するなどの安全リスクも生じる。
本稿では,機械的解釈可能性の観点から,安全アライメントの内的メカニズムを考察し,安全行動に責任を負うLLM内の安全ニューロンの同定と解析に焦点をあてる。
そこで本研究では,これらのニューロンの同定と動的活性化パッチングを対比した生成時活性化法を提案し,その因果効果を評価する。
1) 安全性ニューロンは疎結合で有効である。
すべてのニューロンの約5ドル%の介入で、90ドル%の安全性能を回復できます。
2)安全性ニューロンは転写可能機構をコードする。
異なるレッドチームデータセットに対して一貫した有効性を示す。
安全ニューロンの発見は「調整税」も解釈している。
安全性と有用性のために同定された重要なニューロンは著しく重なり合うが、共有ニューロンの活性化パターンが異なることが観察された。
さらに、生成前の安全でない出力を検出するための安全ニューロンの応用を実証する。
本研究は,LLMアライメントの理解に関するさらなる研究を促進する可能性がある。
ソースコードは、将来の研究を促進するために公開されている。
関連論文リスト
- Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Hebbian Learning based Orthogonal Projection for Continual Learning of
Spiking Neural Networks [74.3099028063756]
我々は,側方接続とヘビアン学習に基づくニューラル操作を用いた新しい手法を開発した。
我々は,反復する側方接続におけるヘビアン学習と反ヘビアン学習が,神経活動の主部分空間を効果的に抽出できることを示した。
我々の手法は、ほとんど忘れることなくニューラルネットワークをスパイクするために一貫して解決する。
論文 参考訳(メタデータ) (2024-02-19T09:29:37Z) - Neuron-Level Knowledge Attribution in Large Language Models [19.472889262384818]
本稿では,重要なニューロンをピンポイントする静的手法を提案する。
他の7つの手法と比較して,本手法は3つの指標にまたがる優れた性能を示す。
また,注目層とフィードフォワード層の両方にわたる6種類の知識を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2023-12-19T13:23:18Z) - Causality Analysis for Evaluating the Security of Large Language Models [9.102606258312246]
大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。
近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。
本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-13T03:35:43Z) - Visual Analytics of Neuron Vulnerability to Adversarial Attacks on
Convolutional Neural Networks [28.081328051535618]
畳み込みニューラルネットワーク(CNN)に対する敵対的攻撃は、高性能CNNを騙して誤った予測をする可能性がある。
我々の研究は、敵の攻撃を理解するための視覚分析手法を導入している。
視覚分析システムは、敵対的攻撃を解釈するための視覚的推論を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-03-06T01:01:56Z) - Adversarial Defense via Neural Oscillation inspired Gradient Masking [0.0]
スパイクニューラルネットワーク(SNN)は、低消費電力、低レイテンシ、生物学的妥当性のために大きな注目を集めている。
本稿では,SNNの安全性を高めるためにバイオインスパイアされた発振機構を組み込んだ新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-11-04T02:13:19Z) - Defense against Backdoor Attacks via Identifying and Purifying Bad
Neurons [36.57541102989073]
本稿では,感染した神経細胞をニューラルネットワークでマークし,浄化するための新しいバックドアディフェンス法を提案する。
良性サリエンス(良性サリエンス)と呼ばれる新しい測定基準は、感染した神経細胞を、バックドアディフェンスで一般的に使用される指標よりも高い精度で識別することができる。
新しいアダプティブ・レギュラー化(AR)機構は、これらの感染した神経細胞の精製を支援するために提案されている。
論文 参考訳(メタデータ) (2022-08-13T01:10:20Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Artificial Neural Variability for Deep Learning: On Overfitting, Noise
Memorization, and Catastrophic Forgetting [135.0863818867184]
人工ニューラルネットワーク(ANV)は、ニューラルネットワークが自然のニューラルネットワークからいくつかの利点を学ぶのに役立つ。
ANVは、トレーニングデータと学習モデルの間の相互情報の暗黙の正則化として機能する。
過度にフィットし、ノイズの記憶をラベル付けし、無視できるコストで破滅的な忘れを効果的に軽減することができる。
論文 参考訳(メタデータ) (2020-11-12T06:06:33Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。