論文の概要: Distributed Specialization: Rare-Token Neurons in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21163v1
- Date: Thu, 25 Sep 2025 13:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.948061
- Title: Distributed Specialization: Rare-Token Neurons in Large Language Models
- Title(参考訳): 分散スペシャライゼーション:大規模言語モデルにおける希少ニューロン
- Authors: Jing Liu, Haozheng Wang, Yueheng Li,
- Abstract要約: 大型言語モデル(LLM)は、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦慮している。
LLMは、離散モジュラーアーキテクチャや分散パラメータレベルの微分ドメインを通じて内部特殊化機構を開発するかを検討する。
- 参考スコア(独自算出の注目度): 8.13000021263958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) struggle with representing and generating rare tokens despite their importance in specialized domains. We investigate whether LLMs develop internal specialization mechanisms through discrete modular architectures or distributed parameter-level differentiation. Through systematic analysis of final-layer MLP neurons across multiple model families, we discover that rare-token processing emerges via \textit{distributed specialization}: functionally coordinated but spatially distributed subnetworks that exhibit three distinct organizational principles. First, we identify a reproducible three-regime influence hierarchy comprising highly influential plateau neurons(also termed as rare-token neurons), power-law decay neurons, and minimally contributing neurons, which is absent in common-token processing. Second, plateau neurons demonstrate coordinated activation patterns (reduced effective dimensionality) while remaining spatially distributed rather than forming discrete clusters. Third, these specialized mechanisms are universally accessible through standard attention pathways without requiring dedicated routing circuits. Training dynamics reveal that functional specialization emerges gradually through parameter differentiation, with specialized neurons developing increasingly heavy-tailed weight correlation spectra consistent with Heavy-Tailed Self-Regularization signatures. Our findings establish that LLMs process rare-tokens through distributed coordination within shared architectures rather than mixture-of-experts-style modularity. These results provide insights for interpretable model editing, computational efficiency optimization, and understanding emergent functional organization in transformer networks.
- Abstract(参考訳): 大型言語モデル(LLM)は、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦慮している。
LLMは、離散モジュラーアーキテクチャや分散パラメータレベルの微分によって内部特殊化機構を開発するかを検討する。
複数のモデルファミリーにまたがる最終層MLPニューロンの系統的解析により,3つの異なる組織原理を示す機能的コーディネートだが空間的に分散されたサブネットによる希少な処理が出現することを発見した。
まず、高い影響力を持つプラトーニューロン(レアトーケンニューロンとも呼ばれる)、パワーロッド崩壊ニューロン、およびコモントーケン処理に欠如している最小結合ニューロンからなる再現可能な3つのレジーム影響階層を同定する。
第2に、プラトーニューロンは、離散クラスタを形成するのではなく、空間的に分散したまま、協調した活性化パターン(有効次元の再現)を示す。
第3に、これらの特殊なメカニズムは、専用のルーティング回路を必要とせずに、標準的な注意経路を通じて普遍的にアクセス可能である。
訓練力学は、機能的特殊化はパラメータ分化を通じて徐々に出現し、特殊ニューロンは重み付き自己規則化符号と整合する重み付き重み付き相関スペクトルを発達させる。
この結果から, LLMは, 共有アーキテクチャ内での分散協調により, 希少な処理を行うことが明らかとなった。
これらの結果は,解釈可能なモデル編集,計算効率の最適化,トランスフォーマネットワークにおける創発的機能構造を理解するための洞察を与える。
関連論文リスト
- No Clustering, No Routing: How Transformers Actually Process Rare Tokens [6.581088182267414]
大規模言語モデルは希少なトークン予測に苦しむが、それらの特殊化を駆動するメカニズムはいまだ不明である。
我々は、GPT-2 XLおよびPythiaモデルにおいて、ニューロンの影響分析、グラフベースのクラスタリング、およびアテンションヘッドアブレーションを通してこれを検証した。
論文 参考訳(メタデータ) (2025-08-30T22:20:41Z) - Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Emergent Specialization: Rare Token Neurons in Language Models [5.946977198458224]
大きな言語モデルは、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦労する。
本研究では,レアトークンニューロンと呼ばれる,言語モデルの希少トークン予測に極めて強い影響を与えるニューロン構造を同定する。
論文 参考訳(メタデータ) (2025-05-19T08:05:13Z) - Astrocyte-mediated hierarchical modulation enables learning-to-learn in recurrent spiking networks [20.88195975299024]
生物学的知性の中心的な特徴は学習能力であり、新しいタスクや環境への迅速な適応を可能にする。
学習から学習までの学習をモデル化する階層型ニューラルネットワーク(HM-RSNN)を提案する。
我々は,HM-RSNNを4つの認知タスクで評価し,標準のRSNNや人工ニューラルネットワークよりも計算上の優位性を実証した。
論文 参考訳(メタデータ) (2025-01-24T14:45:03Z) - Interpretable Spatio-Temporal Embedding for Brain Structural-Effective Network with Ordinary Differential Equation [56.34634121544929]
本研究では,まず動的因果モデルを用いて脳効果ネットワークを構築する。
次に、STE-ODE(Spatio-Temporal Embedding ODE)と呼ばれる解釈可能なグラフ学習フレームワークを導入する。
このフレームワークは、構造的および効果的なネットワーク間の動的相互作用を捉えることを目的とした、特異的に設計されたノード埋め込み層を含んでいる。
論文 参考訳(メタデータ) (2024-05-21T20:37:07Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Theory of gating in recurrent neural networks [5.672132510411465]
リカレントニューラルネットワーク(Recurrent Neural Network, RNN)は、機械学習(ML)や神経科学で広く使われている強力な動的モデルである。
ここでは、ゲーティングが集合力学の2つの健全な特徴を柔軟に制御できることを示す。
ゲート制御の時間スケールは、ネットワークがフレキシブルインテグレータとして機能する、新しい、極端に安定な状態につながる。
論文 参考訳(メタデータ) (2020-07-29T13:20:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。