論文の概要: Emergent Specialization: Rare Token Neurons in Language Models
- arxiv url: http://arxiv.org/abs/2505.12822v1
- Date: Mon, 19 May 2025 08:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.476661
- Title: Emergent Specialization: Rare Token Neurons in Language Models
- Title(参考訳): 創発的特殊化:言語モデルにおける希少なトーケンニューロン
- Authors: Jing Liu, Haozheng Wang, Yueheng Li,
- Abstract要約: 大きな言語モデルは、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦労する。
本研究では,レアトークンニューロンと呼ばれる,言語モデルの希少トークン予測に極めて強い影響を与えるニューロン構造を同定する。
- 参考スコア(独自算出の注目度): 5.946977198458224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models struggle with representing and generating rare tokens despite their importance in specialized domains. In this study, we identify neuron structures with exceptionally strong influence on language model's prediction of rare tokens, termed as rare token neurons, and investigate the mechanism for their emergence and behavior. These neurons exhibit a characteristic three-phase organization (plateau, power-law, and rapid decay) that emerges dynamically during training, evolving from a homogeneous initial state to a functionally differentiated architecture. In the activation space, rare token neurons form a coordinated subnetwork that selectively co-activates while avoiding co-activation with other neurons. This functional specialization potentially correlates with the development of heavy-tailed weight distributions, suggesting a statistical mechanical basis for emergent specialization.
- Abstract(参考訳): 大きな言語モデルは、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦労する。
本研究では,レアトークンニューロンと呼ばれる言語モデルの希少トークン予測に極めて強い影響を与えるニューロン構造を同定し,その出現と行動のメカニズムについて検討する。
これらのニューロンは、訓練中に動的に出現し、均質な初期状態から機能的に分化したアーキテクチャへと進化する特徴的な3相構造(プラトー、パワーロー、急激な崩壊)を示す。
活性化空間において、希少なトークンニューロンは、他のニューロンとの共活性化を避けながら選択的に共活性化する調整されたサブネットワークを形成する。
この機能的特殊化は重量分布の発達と相関し、創発的特殊化の統計力学的基礎が示唆される。
関連論文リスト
- Neuronal and structural differentiation in the emergence of abstract rules in hierarchically modulated spiking neural networks [20.58066918526133]
ルール抽象化の根底にある内部的な機構は、いまだ解明されていない。
この研究は、階層的に変調された繰り返しスパイクニューラルネットワーク(HM-RSNN)を導入し、本質的な神経特性をチューニングできる。
我々は,HM-RSNNを用いた4つの認知課題のモデリングを行い,ネットワークレベルとニューロンレベルの両方で規則抽象化の相違が観察された。
論文 参考訳(メタデータ) (2025-01-24T14:45:03Z) - Artificial Kuramoto Oscillatory Neurons [65.16453738828672]
神経科学とAIの両方では、ニューロン間の'バインディング'が、ネットワークの深い層においてより抽象的な概念を表現するために表現を圧縮する、競争的な学習の形式につながることが知られている。
完全に接続された畳み込みや注意機構などの任意の接続設計とともに人工的再考を導入する。
このアイデアは、教師なしオブジェクト発見、敵対的ロバスト性、不確実性、定量化、推論など、幅広いタスクにわたるパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2024-10-17T17:47:54Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Two-compartment neuronal spiking model expressing brain-state specific apical-amplification, -isolation and -drive regimes [0.7255608805275865]
脳状態特異的神経機構は、過去と文脈の知識を現在の、入ってくる証拠の流れと統合する上で重要な役割を担っている。
この研究の目的は、脳の状態に応じた学習を支援するのに不可欠な特徴を組み込んだ2成分のスパイクニューロンモデルを提供することである。
論文 参考訳(メタデータ) (2023-11-10T14:16:46Z) - Astrocytes as a mechanism for meta-plasticity and contextually-guided
network function [2.66269503676104]
アストロサイトは、ユビキタスでエニグマティックな非神経細胞である。
アストロサイトは脳機能や神経計算においてより直接的で活発な役割を果たす。
論文 参考訳(メタデータ) (2023-11-06T20:31:01Z) - Continuous Learning and Adaptation with Membrane Potential and
Activation Threshold Homeostasis [91.3755431537592]
本稿では,MPATH(Membrane Potential and Activation Threshold Homeostasis)ニューロンモデルを提案する。
このモデルにより、ニューロンは入力が提示されたときに自動的に活性を調節することで動的平衡の形式を維持することができる。
実験は、モデルがその入力から適応し、継続的に学習する能力を示す。
論文 参考訳(メタデータ) (2021-04-22T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。