論文の概要: Complete-muE: Optimal Hyperparameter Transfer and Scaling for MoE Models
- arxiv url: http://arxiv.org/abs/2605.23893v1
- Date: Fri, 22 May 2026 17:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.459777
- Title: Complete-muE: Optimal Hyperparameter Transfer and Scaling for MoE Models
- Title(参考訳): Complete-muE: MoE モデルのための最適ハイパーパラメータ転送とスケーリング
- Authors: Hongwu Peng, Ohiremen Dibua, Yuanjun Xiong, Yifan Gong, Jianming Zhang, Yan Kang,
- Abstract要約: トランスブロックにおける高密度FFNとMixture-of-Experts(MoE)セットアップ間のハイパーパラメータ転送をターゲットとするフレームワークであるComplete-muEを提案する。
- 参考スコア(独自算出の注目度): 19.41180628188769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Complete-muE, a framework which targets hyperparameter transfer across dense FFN and any Mixture-of-Experts (MoE) setups in transformer blocks. Existing tools such as $μ$P (requires fixed architectue) or SDE (requires fixed per-step token count) cannot directly solve the hyperparameter transfer problem in MoE setups because Dense to MoE transfer or MoE total experts scaling changes both architecture and tokens per expert. Complete-muE solves this challenge with a two-bridge system: Bridge~I maps between dense FFN and Dense MoE by active-width $μ$P with a normalized router scale. Bridge~II maps between Dense MoE and sparse MoE by activated-expert scaling, where the first-order SDE LR/WD correction cancels while a bounded residual $σ_0$ shift remains. The resulting transfer rule, which we term as Complete muE, covers changes in activated experts, total capacity, granularity, and shared/group-balanced hybrids for MoE models as well as network width/depth, batch size, and duration changes for general Transformer models. Extensive language model and diffusion model pretraining experiments confirm that complete-muE yields relatively stable hyperparameter optima across model architectures and parameter counts -- with only minor drift consistent with the non-strict SDE behavior of Bridge~II. In practice this drift is small enough that hyperparameters tuned on a single dense reference transfer near-optimally to all MoE configurations -- \emph{tune dense once, transfer to all} is the practical recipe at the core of Complete-muE. This enables MoE models to achieve accelerated convergence speedup over dense models when scaling model capacity without costly hyperparameter search.
- Abstract(参考訳): トランスブロックにおける高密度FFNとMixture-of-Experts(MoE)セットアップ間のハイパーパラメータ転送をターゲットとするフレームワークであるComplete-muEを提案する。
既存のツールである$μ$P (requires fixed architectue) や SDE (requires fixed per-step token count) は、MoEセットアップのハイパーパラメータ転送問題を直接解決できない。
ブリッジ〜Iは高密度FFNとDense MoEを正規化ルータスケールのアクティブ幅$μ$Pでマッピングする。
1階のSDE LR/WD補正がキャンセルされる一方、残差のσ_0$シフトが残る。
得られた転送ルールは, アクティベートした専門家, 総容量, 粒度, ネットワーク幅/深さ, バッチサイズ, および一般的なトランスフォーマーモデルの時間変化を対象とする。
拡張言語モデルと拡散モデル事前訓練実験により、完全なmuEはモデルアーキテクチャとパラメータ数にまたがる比較的安定したハイパーパラメータ最適化をもたらすことが確認された。
実際には、このドリフトは十分小さく、すべてのMoE構成にほぼ最適に1つの高密度参照転送に調整されるハイパーパラメーター -- \emph{tune dense once, transfer to all}は、Complete-muEのコアにおける実践的なレシピである。
これにより、MoEモデルは高パラメータ探索を犠牲にすることなくモデルキャパシティをスケーリングする際に、高密度モデルよりも高速な収束速度を達成することができる。
関連論文リスト
- Hyperparameter Transfer with Mixture-of-Expert Layers [51.03005470884366]
現代のニューラルネットワークをスケールアップするための重要なツールとして、Mixture-of-Experts(MoE)層が登場した。
モデル幅,深さ,専門家の数,(隠れた)サイズを拡大する際,MoE層を有するトランスフォーマーモデルのパラメータ化を提案する。
論文 参考訳(メタデータ) (2026-01-28T03:02:30Z) - $μ$-Parametrization for Mixture of Experts [8.950722808523981]
非常に大きなモデルにおいて、Mixture-of-Experts (MoE) が主要なアーキテクチャとして登場している。
$mu$Transferはモデルスケール間で最適なハイパーパラメータをシームレスに転送することを可能にする。
実験により、最適な学習速度がモデルサイズ間で確実に伝達されることが示されている。
論文 参考訳(メタデータ) (2025-08-13T12:31:27Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。