論文の概要: Holistic Scaling Laws for Optimal Mixture-of-Experts Architecture Optimization
- arxiv url: http://arxiv.org/abs/2603.21862v1
- Date: Mon, 23 Mar 2026 11:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.645002
- Title: Holistic Scaling Laws for Optimal Mixture-of-Experts Architecture Optimization
- Title(参考訳): 最適混合設計最適化のためのホロスティックスケーリング法則
- Authors: Weilin Wan, Jingtao Han, Weizhong Zhang, Cheng Jin,
- Abstract要約: 本稿では,全体的MoEアーキテクチャ最適化のための再利用可能なフレームワークを提案する。
まず、トークン当たりのFLOPsはMoEモデルにとって不適切な公平度指標であることを示す。
次に、16次元のアーキテクチャ探索空間を2つの連続的な低次元位相に縮小する。
我々のフレームワークは、あらゆる計算予算を完全な最適化されたMoEアーキテクチャにマッピングする堅牢なスケーリング法則を生み出します。
- 参考スコア(独自算出の注目度): 19.86300998075755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws for Large Language Models govern macroscopic resource allocation, yet translating them into precise Mixture-of-Experts (MoE) architectural configurations remains an open problem due to the combinatorially vast design space. Existing MoE scaling studies are constrained by experimental budgets to either augment scaling formulas with extra MoE variables, risking unreliable fits, or fix all non-MoE factors, ignoring global interactions. We propose a reusable framework for holistic MoE architectural optimization that bridges this gap. We first show that FLOPs per token alone is an inadequate fairness metric for MoE models because differing computational densities across layer types can inflate parameters without proportional compute cost, and establish a joint constraint triad of FLOPs per token, active parameters, and total parameters. We then reduce the 16-dimensional architectural search space to two sequential low-dimensional phases through algebraic constraints and a rank-preserving property of the hidden dimension. Validated across hundreds of MoE models spanning six orders of magnitude in compute, our framework yields robust scaling laws that map any compute budget to a complete, optimal MoE architecture. A key finding is that the near-optimal configuration band widens with scale, giving practitioners quantitative flexibility to balance scaling law recommendations against infrastructure constraints.
- Abstract(参考訳): 大規模言語モデルのスケーリング法則は、マクロ的なリソース割り当てを規定するが、それらを正確なMixture-of-Experts (MoE) アーキテクチャ構成に変換することは、組合せ的に広大な設計空間のため、未解決の問題である。
既存のMoEスケーリング研究は、実験予算によって、追加のMoE変数によるスケーリング公式の拡張、信頼性の低い適合のリスク、あるいはすべての非MoE要因の修正、グローバルな相互作用の無視のいずれかに制限されている。
このギャップを埋める全体論的MoEアーキテクチャ最適化のための再利用可能なフレームワークを提案する。
まず,トークン毎のFLOPは,比例計算コストを伴わずにパラメータを膨らませることができ,トークン毎のFLOP,アクティブパラメータ,総パラメータの連立制約トリアードを確立することができるため,MoEモデルにとって不適切なフェアネス指標であることを示す。
次に、16次元の建築探索空間を2つの連続的な低次元位相に縮め、代数的制約と隠蔽次元の階数保存性を持つ。
私たちのフレームワークは、計算の6桁にまたがる数百のMoEモデルにまたがって検証され、あらゆる計算予算を完全なMoEアーキテクチャにマッピングする堅牢なスケーリング法則を生成します。
重要な発見は、ほぼ最適に近い構成帯域が大規模に拡大し、実践者がインフラストラクチャの制約に対して法則のスケーリングを推奨するバランスをとるための定量的な柔軟性が得られます。
関連論文リスト
- Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design [37.14769075463234]
Mixture-of-Experts (MoE) モデルは、比例的に計算量を増やすことなく、モデルのキャパシティを効率的にスケーリングする方法として登場した。
専門家層と注目層を対象とするトークン当たりのFLOPの割合として、r$という比率を定義します。
我々の分析では、r*$の明示的な公式が導かれ、エキスパート・アテンションの計算割り当てを正確に制御することができる。
論文 参考訳(メタデータ) (2026-03-11T03:49:04Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。