論文の概要: Universal Neurons in GPT2 Language Models
- arxiv url: http://arxiv.org/abs/2401.12181v1
- Date: Mon, 22 Jan 2024 18:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:02:47.241343
- Title: Universal Neurons in GPT2 Language Models
- Title(参考訳): GPT2言語モデルにおけるユニバーサルニューロン
- Authors: Wes Gurnee, Theo Horsley, Zifan Carl Guo, Tara Rezaei Kheirkhah, Qinyi
Sun, Will Hathaway, Neel Nanda, Dimitris Bertsimas
- Abstract要約: 異なる初期ランダムシードから学習したGPT2モデルにおける個々のニューロンの普遍性について検討した。
ニューロンの1-5%が普遍的、すなわち、同じ入力で一貫して活性化されるニューロンのペアであることがわかった。
- 参考スコア(独自算出の注目度): 4.9892471449871305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A basic question within the emerging field of mechanistic interpretability is
the degree to which neural networks learn the same underlying mechanisms. In
other words, are neural mechanisms universal across different models? In this
work, we study the universality of individual neurons across GPT2 models
trained from different initial random seeds, motivated by the hypothesis that
universal neurons are likely to be interpretable. In particular, we compute
pairwise correlations of neuron activations over 100 million tokens for every
neuron pair across five different seeds and find that 1-5\% of neurons are
universal, that is, pairs of neurons which consistently activate on the same
inputs. We then study these universal neurons in detail, finding that they
usually have clear interpretations and taxonomize them into a small number of
neuron families. We conclude by studying patterns in neuron weights to
establish several universal functional roles of neurons in simple circuits:
deactivating attention heads, changing the entropy of the next token
distribution, and predicting the next token to (not) be within a particular
set.
- Abstract(参考訳): メカニスティック解釈の新興分野における基本的な問題は、ニューラルネットワークが同じメカニズムを学ぶ程度である。
言い換えれば、神経機構は異なるモデルで普遍的であるか?
本研究では、異なる初期ランダムシードから訓練されたGPT2モデルにおける個々のニューロンの普遍性について研究し、普遍ニューロンが解釈可能であるという仮説に動機づけられた。
特に,5つの異なる種子にまたがるニューロンペアごとに1億個を超えるニューロン活性化のペア相関を計算したところ,ニューロンの1~55%が普遍的であり,同じ入力で一貫したニューロンのペアであることがわかった。
次に、これらの普遍ニューロンを詳細に研究し、通常は明確な解釈を持ち、少数のニューロンファミリーに分類する。
最後に、ニューロン重みのパターンを研究し、注意ヘッドの非活性化、次のトークン分布のエントロピーの変化、そして次のトークンが特定のセット内にあることの予測など、単純な回路でニューロンの普遍的な機能的役割を確立する。
関連論文リスト
- Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンのスケーラブルな理解は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Single Biological Neurons as Temporally Precise Spatio-Temporal Pattern
Recognizers [0.0]
理論は、脳内の単一ニューロンは、時間的に非常に複雑な時間的パターン認識因子と見なされるべきという中心的な考え方に焦点を当てている。
第2章では、特定の時間的入力パターンに応答して、単一ニューロンが時間的に正確な出力パターンを生成できることを実証する。
第3章では、現実的な皮質ニューロンの識別可能な深部ネットワークを用いて、ニューロンの出力の影響を近似する。
論文 参考訳(メタデータ) (2023-09-26T17:32:08Z) - Learning to Act through Evolution of Neural Diversity in Random Neural
Networks [9.387749254963595]
ほとんどの人工ニューラルネットワーク(ANN)では、神経計算は通常すべてのニューロン間で共有される活性化関数に抽象化される。
本稿では,複雑な計算を行うことができる多様なニューロンの集合を実現するために,神経中心パラメータの最適化を提案する。
論文 参考訳(メタデータ) (2023-05-25T11:33:04Z) - Constraints on the design of neuromorphic circuits set by the properties
of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。
ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文 参考訳(メタデータ) (2022-12-08T15:16:04Z) - Deep Learning in Random Neural Fields: Numerical Experiments via Neural
Tangent Kernel [10.578941575914516]
大脳皮質の生物学的ニューラルネットワークは神経野を形成する。
野のニューロンは独自の受容野を持ち、2つのニューロン間の接続重みはランダムであるが、受容野に近接しているときに非常に相関している。
このような多層ニューラルネットワークは、ノイズ障害によって入力パターンが変形する場合、従来のモデルよりも頑健であることを示す。
論文 参考訳(メタデータ) (2022-02-10T18:57:10Z) - Continuous Learning and Adaptation with Membrane Potential and
Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。
このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。
実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文 参考訳(メタデータ) (2021-04-22T04:01:32Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Continual Learning with Deep Artificial Neurons [0.0]
本稿では,Deep Artificial Neurons (DAN)を導入し,ディープニューラルネットワークとして実現した。
ネットワーク内のすべてのDANが共有する神経表現型をダブする単一パラメータベクトルをメタ学習することが可能であることを示す。
適切な神経表現型は,最小限の忘れを伴ってシナプスを更新する能力を持つ単一ネットワークを育むことができることを示す。
論文 参考訳(メタデータ) (2020-11-13T17:50:10Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。