論文の概要: No Clustering, No Routing: How Transformers Actually Process Rare Tokens
- arxiv url: http://arxiv.org/abs/2509.04479v1
- Date: Sat, 30 Aug 2025 22:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.317579
- Title: No Clustering, No Routing: How Transformers Actually Process Rare Tokens
- Title(参考訳): クラスタリングなし、ルーティングなし:トランスフォーマーが実際に希少なトークンを処理する方法
- Authors: Jing Liu,
- Abstract要約: 大規模言語モデルは希少なトークン予測に苦しむが、それらの特殊化を駆動するメカニズムはいまだ不明である。
我々は、GPT-2 XLおよびPythiaモデルにおいて、ニューロンの影響分析、グラフベースのクラスタリング、およびアテンションヘッドアブレーションを通してこれを検証した。
- 参考スコア(独自算出の注目度): 6.581088182267414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models struggle with rare token prediction, yet the mechanisms driving their specialization remain unclear. Prior work identified specialized ``plateau'' neurons for rare tokens following distinctive three-regime influence patterns \cite{liu2025emergent}, but their functional organization is unknown. We investigate this through neuron influence analyses, graph-based clustering, and attention head ablations in GPT-2 XL and Pythia models. Our findings show that: (1) rare token processing requires additional plateau neurons beyond the power-law regime sufficient for common tokens, forming dual computational regimes; (2) plateau neurons are spatially distributed rather than forming modular clusters; and (3) attention mechanisms exhibit no preferential routing to specialists. These results demonstrate that rare token specialization arises through distributed, training-driven differentiation rather than architectural modularity, preserving context-sensitive flexibility while achieving adaptive capacity allocation.
- Abstract(参考訳): 大規模言語モデルは希少なトークン予測に苦しむが、それらの特殊化を駆動するメカニズムはいまだ不明である。
以前の研究では、3つの特徴的な影響パターンであるcite{liu2025emergent} に従って希少なトークンの「プラトー」ニューロンを特定できたが、その機能構造は不明である。
我々は、GPT-2 XLおよびPythiaモデルにおいて、ニューロンの影響分析、グラフベースのクラスタリング、およびアテンションヘッドアブレーションを通してこれを検証した。
その結果,(1) 希少なトークン処理では, 共通トークンに十分な高原ニューロンを必要とすること,(2) モジュールクラスタを形成するのではなく, 空間的に分布していること,(3) 注意機構が専門家に好意的な経路を示さないこと,などが判明した。
これらの結果は,適応キャパシティアロケーションを達成しつつ,文脈に敏感な柔軟性を保ちながら,アーキテクチャのモジュラリティよりも分散したトレーニング駆動の差別化を通じて,まれなトークンの特殊化が生じることを示す。
関連論文リスト
- Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - Dreaming up scale invariance via inverse renormalization group [0.0]
我々は,2次元イジングモデルにおいて,最小限のニューラルネットワークが再正規化群 (RG) の粗粒化過程を逆転できることを示す。
トレーニング可能なパラメータを3つも持たないニューラルネットワークでさえ、重要な構成を生成することができることを実証する。
論文 参考訳(メタデータ) (2025-06-04T14:46:22Z) - Emergent Specialization: Rare Token Neurons in Language Models [5.946977198458224]
大きな言語モデルは、特殊なドメインにおいて重要であるにもかかわらず、希少なトークンの表現と生成に苦労する。
本研究では,レアトークンニューロンと呼ばれる,言語モデルの希少トークン予測に極めて強い影響を与えるニューロン構造を同定する。
論文 参考訳(メタデータ) (2025-05-19T08:05:13Z) - Benign Overfitting in Token Selection of Attention Mechanism [34.316270145027616]
ラベルノイズを伴う分類問題における注意機構の学習力学と一般化能力について検討した。
本稿では,信号対雑音比(SNR)の特性から,アテンション機構のトークン選択が過度に適合することを示す。
我々の研究は、オーバーフィッティングの初期段階の後に一般化の獲得が遅れていることも示している。
論文 参考訳(メタデータ) (2024-09-26T08:20:05Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - TANGOS: Regularizing Tabular Neural Networks through Gradient
Orthogonalization and Specialization [69.80141512683254]
TANGOS(Tbular Neural Gradient Orthogonalization and gradient)を紹介する。
TANGOSは、潜在ユニット属性上に構築された表の設定を正規化するための新しいフレームワークである。
提案手法は,他の一般的な正規化手法よりも優れ,サンプル外一般化性能の向上につながることを実証する。
論文 参考訳(メタデータ) (2023-03-09T18:57:13Z) - On the Interpretability of Regularisation for Neural Networks Through
Model Gradient Similarity [0.0]
モデルグラディエント類似度(MGS)は正規化の指標である。
MGSは、優れたパフォーマンスを示す新しい正規化スキームの基礎を提供する。
論文 参考訳(メタデータ) (2022-05-25T10:38:33Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。