論文の概要: How to Scale Mixture-of-Experts: From muP to the Maximally Scale-Stable Parameterization
- arxiv url: http://arxiv.org/abs/2605.14200v1
- Date: Wed, 13 May 2026 23:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.539827
- Title: How to Scale Mixture-of-Experts: From muP to the Maximally Scale-Stable Parameterization
- Title(参考訳): muPから最大スケール安定パラメータ化へ
- Authors: Leena Chennuru Vankadara, Moritz Haas, Luke Hayward, Sebastian Bordt, Alessandro Breccia,
- Abstract要約: 3つの異なるスケーリング体制を解析することで、このギャップを解決するための原則的な一歩を踏み出します。
各体制に対して,MoEsの制限的トレーニング力学に関する新しい力学平均場理論(DMFT)を考案する。
結果として生じる$Pの処方は、スケールや頑健な学習速度の移動による単調な改善を確実に引き起こさないことを示す。
- 参考スコア(独自算出の注目度): 45.69980208532521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent frontier large language models predominantly rely on Mixture-of-Experts (MoE) architectures. Despite empirical progress, there is still no principled understanding of how hyperparameters should scale with network width $N$, expert width $N_e$, number of experts $M$, sparsity $K$, and depth $L$ to ensure both stability and optimal performance at scale. We take a principled step toward resolving this gap by analyzing three different scaling regimes: (I) co-scaling $N\asymp N_e$, (II) co-scaling $N\asymp M\asymp K$, and (III) full proportional scaling of $N, N_e, M$, and $K$. For each regime, we develop a novel Dynamical Mean Field Theory (DMFT) description of the limiting training dynamics of MoEs that provides a formal foundation for our analysis. Within this framework, we derive the unique parameterization for SGD and Adam satisfying all maximal-update ($μ$) desiderata. We then show that the resulting $μ$P prescription does not reliably induce monotonic improvement with scale or robust learning-rate transfer. We trace these pathologies to scale-dependent observables in the aggregation dynamics, which motivates a refined set of desiderata that we term maximal scale stability. Guided by this principle, we derive a Maximally Scale-Stable Parameterization (MSSP) for both SGD and Adam in all three scaling regimes, and characterize the corresponding limiting dynamics - qualitatively distinct from the $μ$P limit - through a separate DMFT analysis. Experiments verify that MSSP robustly recovers learning rate transfer and monotonic improvement with scale across regimes. Combined with existing depth-scaling theory, these results provide a complete scaling prescription for MoE architectures as a function of width, depth, expert width, and number of experts.
- Abstract(参考訳): 最近のフロンティアの大規模言語モデルは、主にMixture-of-Experts (MoE)アーキテクチャに依存している。
経験的な進歩にもかかわらず、ハイパーパラメーターがネットワーク幅$N$、エキスパート幅$N_e$、エキスパートの数$M$、スパシティ$K$、ディープ$L$でどのようにスケールすべきかという原則的な理解はいまだに存在しない。
I) $N\asymp N_e$, (II) co-scaling $N\asymp M\asymp K$, (III) full proportional scaling of $N, N_e, M$, $K$。
各体制に対して、我々は、我々の分析の正式な基礎となるMoEsの制限的トレーニング力学について、新しい力学平均場理論(DMFT)を策定する。
このフレームワーク内では、SGDとAdamがすべての最大更新(μ$)デシダラタを満たす一意のパラメータ化を導出する。
以上の結果から,μ$Pの処方は,スケールや頑健な学習速度の移動による単調な改善を確実に引き起こさないことが明らかとなった。
これらの病理は凝集力学におけるスケール依存的な可観測物に辿り着くが、これは最大スケール安定性(maximal scale stability)と呼ぶデシラタ(deiderata)の洗練された集合を動機付けている。
この原理により、SGDとAdamの3つのスケーリングレジームすべてに対して最大スケール安定パラメータ化(MSSP)を導出し、DMFT解析によって対応する制限力学($μ$Pの極限とは質的に異なる)を特徴づける。
実験では、MSSPが学習率の伝達と単調な改善をレジームの規模で確実に回復することを確認した。
既存のDeep-scaling理論と組み合わせて、これらの結果は、幅、深さ、専門家の幅、専門家の数という関数として、MoEアーキテクチャの完全なスケーリング基準を提供する。
関連論文リスト
- Rethinking Language Model Scaling under Transferable Hypersphere Optimization [67.38433364607897]
モデル幅、深さ、トレーニングトークン、エキスパート・オブ・エキスパート(MoE)間で最適な学習率を転送する最初のフレームワークであるHyperPを紹介します。
単一のベースレートでHyperPの計算予算をまたいだデータ転送を調整し、強力な Muon ベースラインを 6times1021$ FLOPs で1.58 タイムで達成した。
また、超球面制約から派生したMoEゲーティング機構であるSqrtGateを提案し、MoEの粒度にわたって出力RMSを保存する。
論文 参考訳(メタデータ) (2026-03-30T17:51:47Z) - Holistic Scaling Laws for Optimal Mixture-of-Experts Architecture Optimization [19.86300998075755]
本稿では,全体的MoEアーキテクチャ最適化のための再利用可能なフレームワークを提案する。
まず、トークン当たりのFLOPsはMoEモデルにとって不適切な公平度指標であることを示す。
次に、16次元のアーキテクチャ探索空間を2つの連続的な低次元位相に縮小する。
我々のフレームワークは、あらゆる計算予算を完全な最適化されたMoEアーキテクチャにマッピングする堅牢なスケーリング法則を生み出します。
論文 参考訳(メタデータ) (2026-03-23T11:51:35Z) - Spectral Condition for $μ$P under Width-Depth Scaling [33.05604496779641]
広帯域スケーリングにおいて,$$Pの簡易かつ統一的なスペクトルフレームワークを開発する。
提案したスペクトル$$Pは,条件安定な特徴学習を保ち,広帯域スケーリング下でHPの堅牢な転送を可能にすることを示す。
論文 参考訳(メタデータ) (2026-02-28T08:38:50Z) - Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Quantifying Weighted Morphological Content of Large-Scale Structures via Simulation-Based Inference [0.0]
大規模構造(LSS)の2つの高階要約統計量の制約パワーを比較する。
微分の条件モーメント(CMD)は、0階から3階のMFs成分よりも$(Omega_m,,sigma_8)$の厳密な予測が得られる。
論文 参考訳(メタデータ) (2025-11-05T16:54:17Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。