論文の概要: Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design
- arxiv url: http://arxiv.org/abs/2603.10379v1
- Date: Wed, 11 Mar 2026 03:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.770139
- Title: Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design
- Title(参考訳): Mixture-of-Expertsにおけるエキスパートアテンションの最適配置:動的モデル設計のためのスケーラブルな法則
- Authors: Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu,
- Abstract要約: Mixture-of-Experts (MoE) モデルは、比例的に計算量を増やすことなく、モデルのキャパシティを効率的にスケーリングする方法として登場した。
専門家層と注目層を対象とするトークン当たりのFLOPの割合として、r$という比率を定義します。
我々の分析では、r*$の明示的な公式が導かれ、エキスパート・アテンションの計算割り当てを正確に制御することができる。
- 参考スコア(独自算出の注目度): 37.14769075463234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel extension of neural scaling laws to Mixture-of-Experts (MoE) models, focusing on the optimal allocation of compute between expert and attention sub-layers. As MoE architectures have emerged as an efficient method for scaling model capacity without proportionally increasing computation, determining the optimal expert-attention compute ratio becomes critical. We define the ratio $r$ as the fraction of total FLOPs per token dedicated to the expert layers versus the attention layers, and explore how this ratio interacts with the overall compute budget and model sparsity. Through extensive experiments with GPT-style MoE Transformers, we empirically find that the optimal ratio $r^*$ follows a power-law relationship with total compute and varies with sparsity. Our analysis leads to an explicit formula for $r^*$, enabling precise control over the expert-attention compute allocation. We generalize the Chinchilla scaling law by incorporating this architectural parameter, providing a new framework for tuning MoE models beyond size and data. Our findings offer practical guidelines for designing efficient MoE models, optimizing performance while respecting fixed compute budgets.
- Abstract(参考訳): 本稿では,Mixture-of-Experts(MoE)モデルに対するニューラルスケーリング法則の新たな拡張について述べる。
MoEアーキテクチャは、比例的に計算量を増加させることなく、モデルキャパシティを効率的にスケーリングする方法として登場したため、最適なエキスパート・アテンションの計算比率を決定することが重要である。
我々は、専門家層と注目層を対象とするトークン当たりのFLOPの総比率を$r$と定義し、この比率が全体計算予算とモデル空間とどのように相互作用するかを考察する。
GPT方式のMoE変換器による広範な実験により、最適比$r^*$は、全計算との電力-法則関係に従い、間隔によって変化することを実証的に見出した。
我々の分析では、r^*$ の明示的な公式が導かれ、エキスパート・アテンションの計算割り当てを正確に制御できる。
我々は、このアーキテクチャパラメータを組み込むことで、Chinchillaスケーリング法を一般化し、サイズやデータを超えたMoEモデルをチューニングするための新しいフレームワークを提供する。
本研究は, 効率的なMoEモデルを設計し, 一定の計算予算を尊重しながら, 性能を最適化するための実践的ガイドラインを提供する。
関連論文リスト
- Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Sparse Mixture-of-Experts for Compositional Generalization: Empirical Evidence and Theoretical Foundations of Optimal Sparsity [89.81738321188391]
本研究では,SMoEモデルにおけるタスク複雑性と最適空間の関係について検討する。
最適な間隔は、最小限のアクティベーション(1-2専門家)とフルアクティベーションの間にあり、その正確な数はタスクの複雑さに比例する。
論文 参考訳(メタデータ) (2024-10-17T18:40:48Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。