論文の概要: Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models
- arxiv url: http://arxiv.org/abs/2601.08383v1
- Date: Tue, 13 Jan 2026 09:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.14107
- Title: Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models
- Title(参考訳): 事前学習のデコンストラクション:MoEモデルとDenseモデルにおける知識帰属分析
- Authors: Bo Wang, Junzhuo Li, Hong Chen, Yuanlin Chu, Yuxuan Fan, Xuming Hu,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、モデルキャパシティをトーケン毎の計算から分離する。
本稿では,MoEおよび高密度アーキテクチャにおける知識獲得ダイナミクスの時間分解比較について述べる。
10つの重要なMoEアテンションヘッドのマスキングは、密度モデルの50%に比べて、リレーショナルHIT@10を10%削減する。
- 参考スコア(独自算出の注目度): 37.90956602792573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures decouple model capacity from per-token computation, enabling scaling beyond the computational limits imposed by dense scaling laws. Yet how MoE architectures shape knowledge acquisition during pre-training, and how this process differs from dense architectures, remains unknown. To address this issue, we introduce Gated-LPI (Log-Probability Increase), a neuron-level attribution metric that decomposes log-probability increase across neurons. We present a time-resolved comparison of knowledge acquisition dynamics in MoE and dense architectures, tracking checkpoints over 1.2M training steps (~ 5.0T tokens) and 600K training steps (~ 2.5T tokens), respectively. Our experiments uncover three patterns: (1) Low-entropy backbone. The top approximately 1% of MoE neurons capture over 45% of positive updates, forming a high-utility core, which is absent in the dense baseline. (2) Early consolidation. The MoE model locks into a stable importance profile within < 100K steps, whereas the dense model remains volatile throughout training. (3) Functional robustness. Masking the ten most important MoE attention heads reduces relational HIT@10 by < 10%, compared with > 50% for the dense model, showing that sparsity fosters distributed -- rather than brittle -- knowledge storage. These patterns collectively demonstrate that sparsity fosters an intrinsically stable and distributed computational backbone from early in training, helping bridge the gap between sparse architectures and training-time interpretability.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、モデルのキャパシティをトーケン毎の計算から切り離し、密度の高いスケーリング法則によって課される計算制限を超えるスケーリングを可能にする。
しかし、MoEアーキテクチャが事前学習中に知識獲得をどのように形成し、このプロセスが密集したアーキテクチャとどのように異なるかは、いまだ不明である。
この問題に対処するために、ニューロン間の対数確率増加を分解するニューロンレベルの属性尺度であるGated-LPI(Log-Probability increase)を導入する。
我々は,MoE と高密度アーキテクチャにおける知識獲得ダイナミクスの時間分解比較を行い,1.2M のトレーニングステップ (~ 5.0T トークン) と600K のトレーニングステップ (~ 2.5T トークン) のチェックポイントを追跡する。
実験により,(1)低エントロピー背骨の3つのパターンが明らかになった。
約1%のMoEニューロンは、正の更新の45%以上を捕捉し、高ユーティリティコアを形成するが、これは密度の高いベースラインには存在しない。
(2)初期の統合。
MoEモデルは100K以下のステップで安定的に重要なプロファイルにロックされるが、密度の高いモデルはトレーニングを通して不安定である。
(3)機能的堅牢性。
最も重要な10のMoEアテンションをマスキングすることで、リレーショナルHIT@10を10%以下に削減できる。
これらのパターンは、スパーシティが訓練の初期段階から本質的に安定した分散計算バックボーンを育み、スパースアーキテクチャとトレーニング時の解釈可能性の間のギャップを埋める手助けをすることを示している。
関連論文リスト
- Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model [100.86587937568832]
Ring-1Tは、数兆のパラメータを持つ最初のオープンソースの最先端の思考モデルである。
総パラメータは1兆で、1トークンあたり約500億を活性化する。
論文 参考訳(メタデータ) (2025-10-21T17:46:14Z) - CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - Curriculum Learning for Mesh-based simulations [2.867517731896504]
メッシュベースの計算流体力学(CFD)のための強力なサロゲートとして、グラフニューラルネットワーク(GNN)が登場した。
非常に粗いメッシュ上での初等訓練により収束を加速するエンファース・トゥ・ファインなカリキュラムについて検討する。
壁面時間を最大50%削減しながら、同等の精度を実現した。
論文 参考訳(メタデータ) (2025-09-16T14:54:11Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。