論文の概要: Universal Neurons in GPT-2: Emergence, Persistence, and Functional Impact
- arxiv url: http://arxiv.org/abs/2508.00903v1
- Date: Mon, 28 Jul 2025 22:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.67714
- Title: Universal Neurons in GPT-2: Emergence, Persistence, and Functional Impact
- Title(参考訳): GPT-2におけるユニバーサルニューロンの出現,持続性,機能的影響
- Authors: Advey Nandan, Cheng-Ting Chou, Amrit Kurakula, Cole Blondin, Kevin Zhu, Vasu Sharma, Sean O'Brien,
- Abstract要約: 独立訓練GPT-2小モデルにおけるニューロンの普遍性現象について検討する。
我々は500万トークンのデータセット上での活性化のペアワイズ相関解析により普遍ニューロンを同定する。
我々はニューロンの持続性を定量化し、トレーニングチェックポイント間で普遍ニューロンの高い安定性を示す。
- 参考スコア(独自算出の注目度): 3.6335172274433414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the phenomenon of neuron universality in independently trained GPT-2 Small models, examining how these universal neurons-neurons with consistently correlated activations across models-emerge and evolve throughout training. By analyzing five GPT-2 models at three checkpoints (100k, 200k, 300k steps), we identify universal neurons through pairwise correlation analysis of activations over a dataset of 5 million tokens. Ablation experiments reveal significant functional impacts of universal neurons on model predictions, measured via loss and KL divergence. Additionally, we quantify neuron persistence, demonstrating high stability of universal neurons across training checkpoints, particularly in deeper layers. These findings suggest stable and universal representational structures emerge during neural network training.
- Abstract(参考訳): 独立に訓練されたGPT-2小モデルにおけるニューロンの普遍性現象について検討し、これらのニューロンニューロンがモデルエマージ全体にわたって一貫した活性化を保ち、トレーニングを通して進化していくかを検討した。
5つのGPT-2モデルを3つのチェックポイント(100k,200k,300kステップ)で解析することにより,500万トークンのデータセット上での活性化の相互相関解析により,普遍ニューロンを同定する。
アブレーション実験は、損失とKLの発散によって測定されたモデル予測に普遍ニューロンが有意な機能的影響を示す。
さらに、ニューロンの持続性を定量化し、トレーニングチェックポイント、特に深い層において、普遍ニューロンの高い安定性を示す。
これらの結果は、ニューラルネットワークトレーニング中に安定かつ普遍的な表現構造が出現することを示唆している。
関連論文リスト
- Neuronal Group Communication for Efficient Neural representation [85.36421257648294]
本稿では, 効率的な, モジュラー, 解釈可能な表現を学習する, 大規模ニューラルシステムの構築方法に関する問題に対処する。
本稿では、ニューラルネットワークを相互作用する神経群の動的システムとして再認識する理論駆動型フレームワークである神経グループ通信(NGC)を提案する。
NGCは、重みを埋め込みのようなニューロン状態間の過渡的な相互作用として扱い、神経計算はニューロン群間の反復的なコミュニケーションを通じて展開する。
論文 参考訳(メタデータ) (2025-10-19T14:23:35Z) - Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [68.89389652724378]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、実際の実験データに基づいて検証された最初のスケールアップされたディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - Single-neuron deep generative model uncovers underlying physics of neuronal activity in Ca imaging data [0.0]
自己回帰変分オートエンコーダ(AVAE)を用いた単一ニューロン表現学習のための新しいフレームワークを提案する。
我々のアプローチでは、スパイク推論アルゴリズムを必要とせずに、個々のニューロンの信号を縮小次元空間に埋め込む。
AVAEは、より情報的で差別的な潜在表現を生成することによって、従来の線形手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-24T16:33:52Z) - Neuron-Level Differentiation of Memorization and Generalization in Large Language Models [9.504942958632384]
本研究では,大言語モデルがニューロンレベルでの記憶と一般化をいかに区別するかを検討する。
ゼロから訓練されたGPT-2モデルとLoRAで微調整されたLLaMA-3.2モデルの両方の実験は、一貫したニューロンレベルの特殊化を示している。
論文 参考訳(メタデータ) (2024-12-24T15:28:56Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Universal Neurons in GPT2 Language Models [4.9892471449871305]
異なる初期ランダムシードから学習したGPT2モデルにおける個々のニューロンの普遍性について検討した。
ニューロンの1-5%が普遍的、すなわち、同じ入力で一貫して活性化されるニューロンのペアであることがわかった。
論文 参考訳(メタデータ) (2024-01-22T18:11:01Z) - The Neuron as a Direct Data-Driven Controller [43.8450722109081]
本研究は、ニューロンを最適フィードバックコントローラとして概念化し、予測を最適化する現在の規範モデルを拡張する。
我々は、ニューロンを生物学的に実現可能なコントローラとしてモデル化し、ループダイナミクスを暗黙的に識別し、潜伏状態を推測し、制御を最適化する。
我々のモデルは、従来の、フィードフォワード、即時応答のマカロック-ピッツ-ローゼンブラットニューロンから大きく離れており、ニューラルネットワークを構築するための、新しく生物学的にインフォームドされた基本ユニットを提供する。
論文 参考訳(メタデータ) (2024-01-03T01:24:10Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Generalization of generative model for neuronal ensemble inference
method [0.0]
本研究では,ニューロンの状態を表す変数の範囲を拡大し,拡張変数に対するモデルの可能性を一般化する。
この2値入力の制限のない一般化により,ソフトクラスタリングが可能となり,非定常神経活動データに適用できる。
論文 参考訳(メタデータ) (2022-11-07T07:58:29Z) - STNDT: Modeling Neural Population Activity with a Spatiotemporal
Transformer [19.329190789275565]
我々は、個々のニューロンの応答を明示的にモデル化するNDTベースのアーキテクチャであるSpatioTemporal Neural Data Transformer (STNDT)を紹介する。
本モデルは,4つのニューラルデータセット間での神経活動の推定において,アンサンブルレベルでの最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-06-09T18:54:23Z) - Continuous Learning and Adaptation with Membrane Potential and
Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。
このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。
実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文 参考訳(メタデータ) (2021-04-22T04:01:32Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。