論文の概要: Flash Interpretability: Decoding Specialised Feature Neurons in Large Language Models with the LM-Head
- arxiv url: http://arxiv.org/abs/2501.02688v2
- Date: Thu, 27 Feb 2025 21:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.226973
- Title: Flash Interpretability: Decoding Specialised Feature Neurons in Large Language Models with the LM-Head
- Title(参考訳): Flashの解釈可能性:LMヘッドを持つ大規模言語モデルにおける特殊機能ニューロンの復号化
- Authors: Harry J Davies,
- Abstract要約: 本研究では,大きな言語モデルの最終射影層を通じて,ニューロンの重みを直接トークン確率に復号することが可能であることを示す。
これはLlama 3.1 8Bで説明され、LMヘッドを用いて「犬」ニューロンや「カリフォルニア」ニューロンのような特化された特徴ニューロンの例を見つける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) typically have billions of parameters and are thus often difficult to interpret in their operation. In this work, we demonstrate that it is possible to decode neuron weights directly into token probabilities through the final projection layer of the model (the LM-head). This is illustrated in Llama 3.1 8B where we use the LM-head to find examples of specialised feature neurons such as a "dog" neuron and a "California" neuron, and we validate this by clamping these neurons to affect the probability of the concept in the output. We evaluate this method on both the pre-trained and Instruct models, finding that over 75% of neurons in the up-projection layers in the instruct model have the same top associated token compared to the pretrained model. Finally, we demonstrate that clamping the "dog" neuron leads the instruct model to always discuss dogs when asked about its favourite animal. Through our method, it is possible to map the top features of the entirety of Llama 3.1 8B's up-projection neurons in less than 10 seconds, with minimal compute.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、数十億のパラメータを持ち、その操作で解釈することがしばしば困難である。
本研究では, モデルの最終投射層(LMヘッド)を介して, ニューロンの重みを直接トークン確率に復号できることを実証する。
このことはLlama 3.1 8Bで示されており、我々はLMヘッドを用いて「犬」ニューロンや「カリフォルニア」ニューロンのような特殊な特徴ニューロンの例を見つけ、これらのニューロンをクランプすることで出力の概念の確率に影響を与えることを検証している。
本手法を事前学習モデルとインストラクトモデルの両方で評価した結果,インストラクトモデルにおけるアッププロジェクション層のニューロンの75%以上が,事前訓練モデルと同等のトップ関連トークンを持つことがわかった。
最後に、「犬」ニューロンをクランプすることで、犬に好きな動物について尋ねると、常に犬を議論するように指示するモデルが導かれることを実証する。
我々の方法では、Llama 3.1 8Bのアッププロジェクションニューロンの全体像を10秒未満で、最小限の計算でマッピングすることが可能である。
関連論文リスト
- Neuron Empirical Gradient: Connecting Neurons' Linear Controllability and Representational Capacity [14.693407823048478]
まず、ニューロン活性化と出力トークン確率の線形関係を明らかにする。
PLMにおけるニューロンの経験的勾配が、スキルニューロンの探索による一般的なタスク知識を符号化するかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-24T00:01:24Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores [1.8175282137722093]
大規模言語モデル(LLM)の内部表現は最先端の脳スコアを達成し、人間の言語処理と計算原理を共有するという憶測に繋がる。
本稿では、LLM-to-Brainマッピングに関する衝撃的な研究で使用される3つのニューラルデータセットを分析し、参加者が短いパスを読み取るfMRIデータセットに特に焦点をあてる。
このデータセット上で訓練されたLLMの脳のスコアは、文の長さ、位置、代名詞による単語の埋め込みによって大きく説明できる。
論文 参考訳(メタデータ) (2024-06-03T17:13:27Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - WaLiN-GUI: a graphical and auditory tool for neuron-based encoding [73.88751967207419]
ニューロモルフィックコンピューティングはスパイクベースのエネルギー効率の高い通信に依存している。
本研究では, スパイクトレインへのサンプルベースデータの符号化に適した構成を同定するツールを開発した。
WaLiN-GUIはオープンソースとドキュメントが提供されている。
論文 参考訳(メタデータ) (2023-10-25T20:34:08Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Finding Neurons in a Haystack: Case Studies with Sparse Probing [2.278231643598956]
大規模言語モデル (LLM) の内部計算は不透明であり、よく理解されていない。
入力に特徴が存在することを予測するために、$k$-sparseの線形分類器を訓練する。
k$の値を変えることで、学習された表現の空間性と、それがモデルスケールによってどのように変化するかを研究する。
論文 参考訳(メタデータ) (2023-05-02T17:13:55Z) - N2G: A Scalable Approach for Quantifying Interpretable Neuron
Representations in Large Language Models [0.0]
N2Gは、ニューロンとそのデータセットの例を取り、これらの例のニューロンの振る舞いを解釈可能なグラフに自動的に蒸留するツールである。
我々は、重要なトークンのみを提示するためにトランケーションとサリエンシ法を使用し、より多様なサンプルでデータセットの例を拡大し、ニューロンの振る舞いの程度をより正確に把握する。
これらのグラフは、研究者による手動による解釈を助けるために視覚化できるが、テキスト上でトークンアクティベーションを出力して、ニューロンの基底真理アクティベーションと比較して自動検証することも可能だ。
論文 参考訳(メタデータ) (2023-04-22T19:06:13Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。