論文の概要: Neurons in Large Language Models: Dead, N-gram, Positional
- arxiv url: http://arxiv.org/abs/2309.04827v1
- Date: Sat, 9 Sep 2023 15:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 15:56:14.865685
- Title: Neurons in Large Language Models: Dead, N-gram, Positional
- Title(参考訳): 大きな言語モデルのニューロン:dead、n-gram、 positional
- Authors: Elena Voita, Javier Ferrando, Christoforos Nalmpantis
- Abstract要約: 我々は、単一のGPU上で実行できるような軽量な方法で、大規模な言語モデルのファミリーを分析します。
我々は、125mから66bのパラメータのOPTファミリーに着目し、FFNニューロンの活性化の有無にのみ依存する。
- 参考スコア(独自算出の注目度): 10.487897337103101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze a family of large language models in such a lightweight manner
that can be done on a single GPU. Specifically, we focus on the OPT family of
models ranging from 125m to 66b parameters and rely only on whether an FFN
neuron is activated or not. First, we find that the early part of the network
is sparse and represents many discrete features. Here, many neurons (more than
70% in some layers of the 66b model) are "dead", i.e. they never activate on a
large collection of diverse data. At the same time, many of the alive neurons
are reserved for discrete features and act as token and n-gram detectors.
Interestingly, their corresponding FFN updates not only promote next token
candidates as could be expected, but also explicitly focus on removing the
information about triggering them tokens, i.e., current input. To the best of
our knowledge, this is the first example of mechanisms specialized at removing
(rather than adding) information from the residual stream. With scale, models
become more sparse in a sense that they have more dead neurons and token
detectors. Finally, some neurons are positional: them being activated or not
depends largely (or solely) on position and less so (or not at all) on textual
data. We find that smaller models have sets of neurons acting as position range
indicators while larger models operate in a less explicit manner.
- Abstract(参考訳): 我々は、単一のGPU上で実行できるような軽量な方法で、大規模な言語モデルのファミリーを分析する。
具体的には、125mから66bのパラメータのopファミリーに注目し、ffnニューロンが活性化されているかどうかにのみ依存する。
まず、ネットワークの初期の部分はスパースであり、多くの離散的な特徴を表しています。
ここでは、多くのニューロン(66bモデルのいくつかの層では70%以上)が「死」である。
同時に、生きたニューロンの多くは離散的な特徴のために保存され、トークンやn-gram検出器として機能する。
興味深いことに、対応するffnアップデートは次のトークン候補を期待どおりに促進するだけでなく、トークンをトリガーする情報、すなわち現在の入力を明示的に削除することに注力している。
私たちの知る限りでは、これは残留ストリームから情報を削除する(追加するよりむしろ)ことに特化したメカニズムの最初の例です。
スケールでは、ニューロンやトークン検出器がより多く存在するという意味で、モデルはよりスパースになる。
最後に、いくつかのニューロンは位置的であり、それらが活性化されているか、あるいは単にその位置に依存するか、テキストデータに依存しない。
より小さなモデルでは、位置範囲インジケータとして機能するニューロンの集合が存在し、大きなモデルではより明示的な操作が可能である。
関連論文リスト
- Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Linear Explanations for Individual Neurons [12.231741536057378]
高い活性化範囲は、ニューロンの因果効果のごく一部にのみ寄与することを示す。
さらに、低いアクティベーションを引き起こす入力は、しばしば非常に異なるものであり、高いアクティベーションを見るだけでは確実に予測できない。
論文 参考訳(メタデータ) (2024-05-10T23:48:37Z) - Neuron-Level Knowledge Attribution in Large Language Models [19.472889262384818]
本稿では,重要なニューロンをピンポイントする静的手法を提案する。
他の7つの手法と比較して,本手法は3つの指標にまたがる優れた性能を示す。
また,注目層とフィードフォワード層の両方にわたる6種類の知識を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2023-12-19T13:23:18Z) - Neuron to Graph: Interpreting Language Model Neurons at Scale [8.32093320910416]
本稿では,大規模言語モデル内の多数のニューロンにまたがる解釈可能性手法のスケールアップを目的とした,新しい自動化手法を提案する。
我々は、トレーニングしたデータセットからニューロンの振る舞いを自動的に抽出し、解釈可能なグラフに変換する革新的なツールであるNeuron to Graph(N2G)を提案する。
論文 参考訳(メタデータ) (2023-05-31T14:44:33Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。