論文の概要: Emergent Specialization: Rare Token Neurons in Language Models
- arxiv url: http://arxiv.org/abs/2505.12822v2
- Date: Thu, 22 May 2025 16:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.786409
- Title: Emergent Specialization: Rare Token Neurons in Language Models
- Title(参考訳): 創発的特殊化:言語モデルにおける希少なトーケンニューロン
- Authors: Jing Liu, Haozheng Wang, Yueheng Li,
- Abstract要約: 大きな言語モデルは、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦労する。
本研究では,レアトークンニューロンと呼ばれる,言語モデルの希少トークン予測に極めて強い影響を与えるニューロン構造を同定する。
- 参考スコア(独自算出の注目度): 5.946977198458224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models struggle with representing and generating rare tokens despite their importance in specialized domains. In this study, we identify neuron structures with exceptionally strong influence on language model's prediction of rare tokens, termed as rare token neurons, and investigate the mechanism for their emergence and behavior. These neurons exhibit a characteristic three-phase organization (plateau, power-law, and rapid decay) that emerges dynamically during training, evolving from a homogeneous initial state to a functionally differentiated architecture. In the activation space, rare token neurons form a coordinated subnetwork that selectively co-activates while avoiding co-activation with other neurons. This functional specialization potentially correlates with the development of heavy-tailed weight distributions, suggesting a statistical mechanical basis for emergent specialization.
- Abstract(参考訳): 大きな言語モデルは、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦労する。
本研究では,レアトークンニューロンと呼ばれる言語モデルの希少トークン予測に極めて強い影響を与えるニューロン構造を同定し,その出現と行動のメカニズムについて検討する。
これらのニューロンは、訓練中に動的に出現し、均質な初期状態から機能的に分化したアーキテクチャへと進化する特徴的な3相構造(プラトー、パワーロー、急激な崩壊)を示す。
活性化空間において、希少なトークンニューロンは、他のニューロンとの共活性化を避けながら選択的に共活性化する調整されたサブネットワークを形成する。
この機能的特殊化は重量分布の発達と相関し、創発的特殊化の統計力学的基礎が示唆される。
関連論文リスト
- State Space Models Naturally Produce Traveling Waves, Time Cells, and Scale to Abstract Cognitive Functions [7.097247619177705]
ディープラーニングアーキテクチャの新しいクラスであるステートスペースモデル(SSM)に基づくフレームワークを提案する。
我々は、このモデルが生物学的な「時間細胞」を著しく模倣する神経表現を自然に発達させることを実証した。
本研究は,SSMを単一ニューロンのダイナミクスと認知現象を結びつける魅力的な枠組みとして位置づけた。
論文 参考訳(メタデータ) (2025-07-18T03:53:16Z) - Langevin Flows for Modeling Neural Latent Dynamics [81.81271685018284]
逐次変分自動エンコーダであるLangevinFlowを導入し、潜伏変数の時間的進化をアンダーダム化したLangevin方程式で制御する。
われわれのアプローチは、慣性、減衰、学習されたポテンシャル関数、力などの物理的事前を組み込んで、ニューラルネットワークにおける自律的および非自律的プロセスの両方を表現する。
本手法は,ロレンツ誘引器によって生成される合成神経集団に対する最先端のベースラインより優れる。
論文 参考訳(メタデータ) (2025-07-15T17:57:48Z) - NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [68.89389652724378]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、実際の実験データに基づいて検証された最初のスケールアップされたディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - Neuronal and structural differentiation in the emergence of abstract rules in hierarchically modulated spiking neural networks [20.58066918526133]
ルール抽象化の根底にある内部的な機構は、いまだ解明されていない。
この研究は、階層的に変調された繰り返しスパイクニューラルネットワーク(HM-RSNN)を導入し、本質的な神経特性をチューニングできる。
我々は,HM-RSNNを用いた4つの認知課題のモデリングを行い,ネットワークレベルとニューロンレベルの両方で規則抽象化の相違が観察された。
論文 参考訳(メタデータ) (2025-01-24T14:45:03Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Graph-Based Representation Learning of Neuronal Dynamics and Behavior [2.3859858429583665]
本稿では,時間変動ニューロン接続をモデル化する新しいフレームワークTAVRNNを紹介する。
TAVRNNは、解釈可能な集団レベルの表現を維持しながら、単一単位レベルで潜伏ダイナミクスを学習する。
TAVRNNは,(1)自由行動ラットの電気生理学的データ,(2)到達作業中の霊長類体性感覚皮質記録,(3)仮想ゲーム環境と相互作用するDishBrainプラットフォーム内の生物学的ニューロンの3つのデータセットで検証した。
論文 参考訳(メタデータ) (2024-10-01T13:19:51Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Two-compartment neuronal spiking model expressing brain-state specific apical-amplification, -isolation and -drive regimes [0.7255608805275865]
脳状態特異的神経機構は、過去と文脈の知識を現在の、入ってくる証拠の流れと統合する上で重要な役割を担っている。
この研究の目的は、脳の状態に応じた学習を支援するのに不可欠な特徴を組み込んだ2成分のスパイクニューロンモデルを提供することである。
論文 参考訳(メタデータ) (2023-11-10T14:16:46Z) - Astrocytes as a mechanism for meta-plasticity and contextually-guided
network function [2.66269503676104]
アストロサイトは、ユビキタスでエニグマティックな非神経細胞である。
アストロサイトは脳機能や神経計算においてより直接的で活発な役割を果たす。
論文 参考訳(メタデータ) (2023-11-06T20:31:01Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Continuous Learning and Adaptation with Membrane Potential and
Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。
このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。
実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文 参考訳(メタデータ) (2021-04-22T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。