論文の概要: Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models
- arxiv url: http://arxiv.org/abs/2601.08383v1
- Date: Tue, 13 Jan 2026 09:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.14107
- Title: Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models
- Title(参考訳): 事前学習のデコンストラクション:MoEモデルとDenseモデルにおける知識帰属分析
- Authors: Bo Wang, Junzhuo Li, Hong Chen, Yuanlin Chu, Yuxuan Fan, Xuming Hu,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、モデルキャパシティをトーケン毎の計算から分離する。
本稿では,MoEおよび高密度アーキテクチャにおける知識獲得ダイナミクスの時間分解比較について述べる。
10つの重要なMoEアテンションヘッドのマスキングは、密度モデルの50%に比べて、リレーショナルHIT@10を10%削減する。
- 参考スコア(独自算出の注目度): 37.90956602792573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures decouple model capacity from per-token computation, enabling scaling beyond the computational limits imposed by dense scaling laws. Yet how MoE architectures shape knowledge acquisition during pre-training, and how this process differs from dense architectures, remains unknown. To address this issue, we introduce Gated-LPI (Log-Probability Increase), a neuron-level attribution metric that decomposes log-probability increase across neurons. We present a time-resolved comparison of knowledge acquisition dynamics in MoE and dense architectures, tracking checkpoints over 1.2M training steps (~ 5.0T tokens) and 600K training steps (~ 2.5T tokens), respectively. Our experiments uncover three patterns: (1) Low-entropy backbone. The top approximately 1% of MoE neurons capture over 45% of positive updates, forming a high-utility core, which is absent in the dense baseline. (2) Early consolidation. The MoE model locks into a stable importance profile within < 100K steps, whereas the dense model remains volatile throughout training. (3) Functional robustness. Masking the ten most important MoE attention heads reduces relational HIT@10 by < 10%, compared with > 50% for the dense model, showing that sparsity fosters distributed -- rather than brittle -- knowledge storage. These patterns collectively demonstrate that sparsity fosters an intrinsically stable and distributed computational backbone from early in training, helping bridge the gap between sparse architectures and training-time interpretability.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、モデルのキャパシティをトーケン毎の計算から切り離し、密度の高いスケーリング法則によって課される計算制限を超えるスケーリングを可能にする。
しかし、MoEアーキテクチャが事前学習中に知識獲得をどのように形成し、このプロセスが密集したアーキテクチャとどのように異なるかは、いまだ不明である。
この問題に対処するために、ニューロン間の対数確率増加を分解するニューロンレベルの属性尺度であるGated-LPI(Log-Probability increase)を導入する。
我々は,MoE と高密度アーキテクチャにおける知識獲得ダイナミクスの時間分解比較を行い,1.2M のトレーニングステップ (~ 5.0T トークン) と600K のトレーニングステップ (~ 2.5T トークン) のチェックポイントを追跡する。
実験により,(1)低エントロピー背骨の3つのパターンが明らかになった。
約1%のMoEニューロンは、正の更新の45%以上を捕捉し、高ユーティリティコアを形成するが、これは密度の高いベースラインには存在しない。
(2)初期の統合。
MoEモデルは100K以下のステップで安定的に重要なプロファイルにロックされるが、密度の高いモデルはトレーニングを通して不安定である。
(3)機能的堅牢性。
最も重要な10のMoEアテンションをマスキングすることで、リレーショナルHIT@10を10%以下に削減できる。
これらのパターンは、スパーシティが訓練の初期段階から本質的に安定した分散計算バックボーンを育み、スパースアーキテクチャとトレーニング時の解釈可能性の間のギャップを埋める手助けをすることを示している。
関連論文リスト
- Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - Curriculum Learning for Mesh-based simulations [2.867517731896504]
メッシュベースの計算流体力学(CFD)のための強力なサロゲートとして、グラフニューラルネットワーク(GNN)が登場した。
非常に粗いメッシュ上での初等訓練により収束を加速するエンファース・トゥ・ファインなカリキュラムについて検討する。
壁面時間を最大50%削減しながら、同等の精度を実現した。
論文 参考訳(メタデータ) (2025-09-16T14:54:11Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。