論文の概要: Flash Interpretability: Decoding Specialised Feature Neurons in Large Language Models with the LM-Head
- arxiv url: http://arxiv.org/abs/2501.02688v2
- Date: Thu, 27 Feb 2025 21:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:38:28.611864
- Title: Flash Interpretability: Decoding Specialised Feature Neurons in Large Language Models with the LM-Head
- Title(参考訳): Flashの解釈可能性:LMヘッドを持つ大規模言語モデルにおける特殊機能ニューロンの復号化
- Authors: Harry J Davies,
- Abstract要約: 本研究では,大きな言語モデルの最終射影層を通じて,ニューロンの重みを直接トークン確率に復号することが可能であることを示す。
これはLlama 3.1 8Bで説明され、LMヘッドを用いて「犬」ニューロンや「カリフォルニア」ニューロンのような特化された特徴ニューロンの例を見つける。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) typically have billions of parameters and are thus often difficult to interpret in their operation. In this work, we demonstrate that it is possible to decode neuron weights directly into token probabilities through the final projection layer of the model (the LM-head). This is illustrated in Llama 3.1 8B where we use the LM-head to find examples of specialised feature neurons such as a "dog" neuron and a "California" neuron, and we validate this by clamping these neurons to affect the probability of the concept in the output. We evaluate this method on both the pre-trained and Instruct models, finding that over 75% of neurons in the up-projection layers in the instruct model have the same top associated token compared to the pretrained model. Finally, we demonstrate that clamping the "dog" neuron leads the instruct model to always discuss dogs when asked about its favourite animal. Through our method, it is possible to map the top features of the entirety of Llama 3.1 8B's up-projection neurons in less than 10 seconds, with minimal compute.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、数十億のパラメータを持ち、その操作で解釈することがしばしば困難である。
本研究では, モデルの最終投射層(LMヘッド)を介して, ニューロンの重みを直接トークン確率に復号できることを実証する。
このことはLlama 3.1 8Bで示されており、我々はLMヘッドを用いて「犬」ニューロンや「カリフォルニア」ニューロンのような特殊な特徴ニューロンの例を見つけ、これらのニューロンをクランプすることで出力の概念の確率に影響を与えることを検証している。
本手法を事前学習モデルとインストラクトモデルの両方で評価した結果,インストラクトモデルにおけるアッププロジェクション層のニューロンの75%以上が,事前訓練モデルと同等のトップ関連トークンを持つことがわかった。
最後に、「犬」ニューロンをクランプすることで、犬に好きな動物について尋ねると、常に犬を議論するように指示するモデルが導かれることを実証する。
我々の方法では、Llama 3.1 8Bのアッププロジェクションニューロンの全体像を10秒未満で、最小限の計算でマッピングすることが可能である。
関連論文リスト
- Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores [1.8175282137722093]
大規模言語モデル(LLM)の内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。
本稿では、LLM-to-Brainマッピングに関する衝撃的な研究で使用される3つのニューラルデータセットを分析し、参加者が短いパスを読み取るfMRIデータセットに特に焦点をあてる。
このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞による単語の埋め込みによって大きく説明できる。
論文 参考訳(メタデータ) (2024-06-03T17:13:27Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - Cones: Concept Neurons in Diffusion Models for Customized Generation [41.212255848052514]
本稿では,特定の対象に対応する拡散モデルにおいて,ニューロンの小さな集合を見出す。
概念ニューロンは、生成結果の解釈と操作において磁気特性を示す。
大規模な応用においては、ニューロンは環境に優しいため、密度の高いfloat32値ではなく、sparseクラスタのintインデックスを格納するだけである。
論文 参考訳(メタデータ) (2023-03-09T09:16:04Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Logical Information Cells I [10.411800812671952]
本研究では,単純な人工ネットワークにおける可視的不可視推論の自発的な評価について検討する。
まず、サルの自然ニューロンのDNNモデルを再現することから始める。
次に、述語論理を含む優先順位として、もう少し複雑なタスクについて研究する。
論文 参考訳(メタデータ) (2021-08-10T15:31:26Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。