論文の概要: Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models
- arxiv url: http://arxiv.org/abs/2507.17702v1
- Date: Wed, 23 Jul 2025 17:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.102774
- Title: Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models
- Title(参考訳): より高度なレバレッジを目指して: 効率的な混合言語モデルのスケーリング法則
- Authors: Changxin Tian, Kunlong Chen, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
- 参考スコア(独自算出の注目度): 20.427087561312057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has become a dominant architecture for scaling Large Language Models (LLMs) efficiently by decoupling total parameters from computational cost. However, this decoupling creates a critical challenge: predicting the model capacity of a given MoE configurations (e.g., expert activation ratio and granularity) remains an unresolved problem. To address this gap, we introduce Efficiency Leverage (EL), a metric quantifying the computational advantage of an MoE model over a dense equivalent. We conduct a large-scale empirical study, training over 300 models up to 28B parameters, to systematically investigate the relationship between MoE architectural configurations and EL. Our findings reveal that EL is primarily driven by the expert activation ratio and the total compute budget, both following predictable power laws, while expert granularity acts as a non-linear modulator with a clear optimal range. We integrate these discoveries into a unified scaling law that accurately predicts the EL of an MoE architecture based on its configuration. To validate our derived scaling laws, we designed and trained Ling-mini-beta, a pilot model for Ling-2.0 series with only 0.85B active parameters, alongside a 6.1B dense model for comparison. When trained on an identical 1T high-quality token dataset, Ling-mini-beta matched the performance of the 6.1B dense model while consuming over 7x fewer computational resources, thereby confirming the accuracy of our scaling laws. This work provides a principled and empirically-grounded foundation for the scaling of efficient MoE models.
- Abstract(参考訳): Mixture-of-Experts (MoE) は、計算コストから全パラメータを分離することで、LLM(Large Language Models)を効率的にスケールするための支配的なアーキテクチャとなっている。
与えられたMoE構成(例えば、専門家のアクティベーション比と粒度)のモデル容量を予測することは未解決の問題のままである。
このギャップに対処するために、高密度な等価性に対するMoEモデルの計算上の利点を定量化する指標であるEfficency Leverage (EL)を導入する。
大規模実験を行い,300以上のモデルから28Bパラメータまでを学習し,MoE構造とELの関係を体系的に検討した。
その結果, ELは, 予測可能な電力法則に従って, エキスパートアクティベーション比と総計算予算によって駆動され, 専門家の粒度は, 明確な最適範囲を持つ非線形変調器として機能することがわかった。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
導出したスケーリング法則を検証するため、Ling-2.0シリーズのパイロットモデルであるLing-mini-betaを6.1B高密度モデルとともに設計し、訓練した。
Ling-mini-betaは、同一の1T高品質トークンデータセットでトレーニングすると、計算リソースを7倍以上消費しながら6.1B高密度モデルの性能と一致し、スケーリング法則の正確性を確認した。
この研究は、効率的なMoEモデルのスケーリングのための原則的で実証的な基礎を提供する。
関連論文リスト
- Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Scaling Fine-Grained MoE Beyond 50B Parameters: Empirical Evaluation and Practical Insights [3.8192930334982074]
きめ細かいMoEアプローチは、モデル収束と品質を改善する可能性を示している。
この研究は、将来の大規模モデルの開発において、微細なMoEを利用するための経験的基礎と実践的な洞察を提供する。
論文 参考訳(メタデータ) (2025-06-03T13:55:48Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - MoLAE: Mixture of Latent Experts for Parameter-Efficient Language Models [10.623996218106564]
Mixture of Experts (MoE)は、Large Language Models (LLM)を効率的にスケーリングするための重要なアーキテクチャパラダイムとなっている。
我々は、共有射影を通して専門家の操作を低次元の潜在空間に変換する新しいパラメータ化であるMoLAEを導入し、それに続いて専門家固有の変換を行う。
モデル性能を保ちながら,MoLAEは複数の次元にわたる効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
本研究では,100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない実証的研究を行った。
我々は、固定モデルサイズ(N$)とデータセットサイズ(D$)で、ハイパーパラメータのランドスケープは広い最適度で凸性を示すことを実証的に観察した。
この洞察に基づいて、我々はステップ法を正式に定義し、実証的に検証する: 最適な学習レートは、$N$と$D$との関係に従うが、最適なバッチサイズは、主に$D$の影響を受け、主に$N$に不変である。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient [4.34286535607654]
我々は,高密度モデルとMoEモデルに対する共同スケーリング法則を提案し,アクティブパラメータ数,データセットサイズ,エキスパート数といった重要な要素を取り入れた。
驚くべきことに、従来の知恵とは対照的に、MoEモデルは高密度モデルよりもメモリ効率が高いことが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:38Z) - Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models [10.517704202614091]
sparse Mixture-of-Experts (MoEs) は、例ごとのFLOPを比例的に増やさずにパラメータの数をスケールできる。
本研究では,不活性パラメータの比率が,事前学習および下流数ショット評価におけるモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-21T18:51:15Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。