論文の概要: Decoding specialised feature neurons in LLMs with the final projection layer
- arxiv url: http://arxiv.org/abs/2501.02688v1
- Date: Sun, 05 Jan 2025 23:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:38.103375
- Title: Decoding specialised feature neurons in LLMs with the final projection layer
- Title(参考訳): 最終投射層を有するLDMにおける特徴ニューロンの復号化
- Authors: Harry J Davies,
- Abstract要約: 大規模言語モデル(LLM)は通常、数十億のパラメータを持ち、その操作で解釈することがしばしば困難である。
本稿では, モデルの最終射影層(LMヘッド)を介し, ニューロンの重みを直接トークン確率に復号する手法を提案する。
Llama 3.1 8Bのアッププロジェクションニューロン全体を15分以内で並列化せずにマッピングすることが可能である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) typically have billions of parameters and are thus often difficult to interpret in their operation. Such black-box models can pose a significant risk to safety when trusted to make important decisions. The lack of interpretability of LLMs is more related to their sheer size, rather than the complexity of their individual components. The TARS method for knowledge removal (Davies et al 2024) provides strong evidence for the hypothesis that that linear layer weights which act directly on the residual stream may have high correlation with different concepts encoded in the residual stream. Building upon this, we attempt to decode neuron weights directly into token probabilities through the final projection layer of the model (the LM-head). Firstly, we show that with Llama 3.1 8B we can utilise the LM-head to decode specialised feature neurons that respond strongly to certain concepts, with examples such as "dog" and "California". This is then confirmed by demonstrating that these neurons can be clamped to affect the probability of the concept in the output. This extends to the fine-tuned assistant Llama 3.1 8B instruct model, where we find that over 75% of neurons in the up-projection layers have the same top associated token compared to the pretrained model. Finally, we demonstrate that clamping the "dog" neuron leads the instruct model to always discuss dogs when asked about its favourite animal. Through our method, it is possible to map the entirety of Llama 3.1 8B's up-projection neurons in less than 15 minutes with no parallelization.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、数十億のパラメータを持ち、その操作で解釈することがしばしば困難である。
このようなブラックボックスモデルは、重要な決定をするために信頼された場合、安全性に重大なリスクをもたらす可能性がある。
LLMの解釈可能性の欠如は、個々のコンポーネントの複雑さよりも、より大きいサイズに関係している。
知識除去のためのTARS法(Davies et al 2024)は、残留ストリームに直接作用する線形層重みが残留ストリームにコードされた異なる概念と高い相関を持つという仮説の強い証拠を提供する。
これに基づいて、モデルの最終射影層(LMヘッド)を介して、ニューロンの重みを直接トークン確率に復号しようとする。
まず、Llama 3.1 8Bを用いて、特定の概念に強く反応する特殊な特徴ニューロンを、例えば「犬」や「カリフォルニア」のようにデコードすることができることを示す。
このことは、これらのニューロンが出力の概念の確率に影響を与えることを実証することによって確認される。
これは、微調整されたアシスタントLlama 3.1 8Bインストラクションモデルにまで拡張され、アッププロジェクション層のニューロンの75%以上が、事前訓練されたモデルと比較して、同じトップ関連トークンを持つことがわかった。
最後に、「犬」ニューロンをクランプすることで、犬に好きな動物について尋ねると、常に犬を議論するように指示するモデルが導かれることを実証する。
この方法では、Llama 3.1 8Bのアッププロジェクションニューロン全体を15分以内で並列化せずにマッピングすることが可能である。
関連論文リスト
- Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores [1.8175282137722093]
大規模言語モデル(LLM)の内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。
本稿では、LLM-to-Brainマッピングに関する衝撃的な研究で使用される3つのニューラルデータセットを分析し、参加者が短いパスを読み取るfMRIデータセットに特に焦点をあてる。
このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞による単語の埋め込みによって大きく説明できる。
論文 参考訳(メタデータ) (2024-06-03T17:13:27Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Logical Information Cells I [10.411800812671952]
本研究では,単純な人工ネットワークにおける可視的不可視推論の自発的な評価について検討する。
まず、サルの自然ニューロンのDNNモデルを再現することから始める。
次に、述語論理を含む優先順位として、もう少し複雑なタスクについて研究する。
論文 参考訳(メタデータ) (2021-08-10T15:31:26Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。