論文の概要: Generalization and Scaling Laws for Mixture-of-Experts Transformers
- arxiv url: http://arxiv.org/abs/2604.09175v1
- Date: Fri, 10 Apr 2026 09:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.816555
- Title: Generalization and Scaling Laws for Mixture-of-Experts Transformers
- Title(参考訳): 混合弁変圧器の一般化とスケーリング法則
- Authors: Mansour Zoubeirou a Mayaki,
- Abstract要約: 我々は,Mixture-of-Experts (MoE) 変換器の一般化とスケーリングの理論を開発する。
本手法は, アクティブパラメータの予算で計量エントロピーがスケールする超ノルム被覆数界を導出し, MoE 固有のルーティングオーバヘッドを発生させる。
我々は,MoE アーキテクチャの構成的近似定理を証明し,近似構成の下では,アクティブキャパシティのスケーリングや専門家数の増加によって誤差が減少することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a theory of generalization and scaling for Mixture-of-Experts (MoE) Transformers that cleanly separates \emph{active} per-input capacity from routing combinatorics. By conditioning on fixed routing patterns and union-bounding across them, we derive a sup-norm covering-number bound whose metric entropy scales with the active parameter budget and incurs a MoE-specific routing overhead. Combined with a standard ERM analysis for squared loss, this yields a generalization bound under a $d$-dimensional manifold data model and $C^β$ targets, showing that approximation and estimation trade off as in dense networks once active parameters are accounted for appropriately. We further prove a constructive approximation theorem for MoE architectures, showing that, under the approximation construction, error can decrease either by scaling active capacity or by increasing the number of experts, depending on the dominant bottleneck. From these results we derive neural scaling laws for model size, data size, and compute-optimal tradeoffs. Overall, our results provide a transparent statistical reference point for reasoning about MoE scaling, clarifying which behaviors are certified by worst-case theory and which must arise from data-dependent routing structure or optimization dynamics.
- Abstract(参考訳): そこで我々は,Mixture-of-Experts (MoE) 変換器の一般化とスケーリングの理論を開発し,各入力容量をルーティングコンビネータからきれいに分離する。
固定されたルーティングパターンとユニオンバウンディングを条件に、メトリックエントロピーがアクティブパラメータ予算とスケールする超ノルム被覆数バウンダリを導出し、MoE固有のルーティングオーバーヘッドを発生させる。
正方形損失に対する標準的なERM解析と組み合わせることで、$d$次元多様体データモデルと$C^β$ターゲットの下での一般化が得られる。
さらに, MoE アーキテクチャに対する構成的近似定理を証明し, 近似構成の下では, 有効容量のスケーリングや, 支配的ボトルネックに依存する専門家数の増加によって誤差が減少することを示した。
これらの結果から、モデルサイズ、データサイズ、計算-最適トレードオフに関するニューラルネットワークスケーリング法則を導出する。
以上の結果から,データ依存のルーティング構造や最適化のダイナミクスから生じる必要のある最悪のケース理論により,どの動作が認証されるかを明らかにする。
関連論文リスト
- Holistic Scaling Laws for Optimal Mixture-of-Experts Architecture Optimization [19.86300998075755]
本稿では,全体的MoEアーキテクチャ最適化のための再利用可能なフレームワークを提案する。
まず、トークン当たりのFLOPsはMoEモデルにとって不適切な公平度指標であることを示す。
次に、16次元のアーキテクチャ探索空間を2つの連続的な低次元位相に縮小する。
我々のフレームワークは、あらゆる計算予算を完全な最適化されたMoEアーキテクチャにマッピングする堅牢なスケーリング法則を生み出します。
論文 参考訳(メタデータ) (2026-03-23T11:51:35Z) - Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design [37.14769075463234]
Mixture-of-Experts (MoE) モデルは、比例的に計算量を増やすことなく、モデルのキャパシティを効率的にスケーリングする方法として登場した。
専門家層と注目層を対象とするトークン当たりのFLOPの割合として、r$という比率を定義します。
我々の分析では、r*$の明示的な公式が導かれ、エキスパート・アテンションの計算割り当てを正確に制御することができる。
論文 参考訳(メタデータ) (2026-03-11T03:49:04Z) - Understanding Model Merging: A Unified Generalization Framework for Heterogeneous Experts [36.26786113564521]
モデルマージは、複数の微調整されたモデルの機能を単一のモデルに効率的に集約する。
経験的成功にもかかわらず、不均一な微調整ハイパーパラメータの下での有効性の統一理論はいまだに欠落している。
我々は$L$-Stability理論を用いて、合併されたモデル $boldsymbolx_avg$ の一般化を分析する。
論文 参考訳(メタデータ) (2026-01-29T13:22:06Z) - Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Theoretical Foundations of Scaling Law in Familial Models [46.506708373314375]
モデルサイズ(N)とトレーニングトークン(D)とともに、基本的なスケーリング変数としてグラニュラリティ(G)を導入します。
この結果から, 極小指数の乗法則に準じる粒度ペナルティが明らかとなった。
のパラダイムを検証することで、デプロイメントの柔軟性が達成可能であることを実証しています。
論文 参考訳(メタデータ) (2025-12-29T12:01:58Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。