論文の概要: LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training
- arxiv url: http://arxiv.org/abs/2602.11686v1
- Date: Thu, 12 Feb 2026 08:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.711583
- Title: LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training
- Title(参考訳): LAER-MoE: 効率的な混合訓練のための負荷適応型エキスパートリレイアウト
- Authors: Xinyi Liu, Yujie Wang, Fangcheng Fu, Xuefeng Xiao, Huixia Li, Jiashi Li, Bin Cui,
- Abstract要約: 本稿では,効率的なMoEトレーニングフレームワークであるLAER-MoEを紹介する。
LAER-MoEの中核は、新しい並列パラダイムであるFully Sharded Expert Parallel(FSEP)である。
我々はA100クラスタ上で実験を行い、その結果、現在の最先端のトレーニングシステムと比較して最大1.69倍の加速を実現していることを示す。
- 参考スコア(独自算出の注目度): 27.022187489292467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expert parallelism is vital for effectively training Mixture-of-Experts (MoE) models, enabling different devices to host distinct experts, with each device processing different input data. However, during expert parallel training, dynamic routing results in significant load imbalance among experts: a handful of overloaded experts hinder overall iteration, emerging as a training bottleneck. In this paper, we introduce LAER-MoE, an efficient MoE training framework. The core of LAER-MoE is a novel parallel paradigm, Fully Sharded Expert Parallel (FSEP), which fully partitions each expert parameter by the number of devices and restores partial experts at expert granularity through All-to-All communication during training. This allows for flexible re-layout of expert parameters during training to enhance load balancing. In particular, we perform fine-grained scheduling of communication operations to minimize communication overhead. Additionally, we develop a load balancing planner to formulate re-layout strategies of experts and routing schemes for tokens during training. We perform experiments on an A100 cluster, and the results indicate that our system achieves up to 1.69x acceleration compared to the current state-of-the-art training systems. Source code available at https://github.com/PKU-DAIR/Hetu-Galvatron/tree/laer-moe.
- Abstract(参考訳): エキスパート並列性は、Mixture-of-Experts(MoE)モデルを効果的にトレーニングするために不可欠である。
しかし、エキスパートの並列トレーニングの間、動的ルーティングは専門家の間で大きな負荷の不均衡をもたらす。
本稿では,効率的なMoEトレーニングフレームワークであるLAER-MoEを紹介する。
LAER-MoEのコアは、新しい並列パラダイムであるFully Sharded Expert Parallel(FSEP)である。
これにより、トレーニング中のエキスパートパラメータのフレキシブルなリレイアウトが可能になり、ロードバランシングが強化される。
特に,通信オーバヘッドを最小限に抑えるために,通信操作のきめ細かいスケジューリングを行う。
さらに,エキスパートの再レイアウト戦略と,トレーニング中のトークンのルーティングスキームを定式化するロードバランシングプランナを開発した。
我々はA100クラスタ上で実験を行い、その結果、現在の最先端のトレーニングシステムと比較して最大1.69倍の加速を実現していることを示す。
ソースコードはhttps://github.com/PKU-DAIR/Hetu-Galvatron/tree/laer-moeで公開されている。
関連論文リスト
- MoSE: Mixture of Slimmable Experts for Efficient and Adaptive Language Models [28.87682703032017]
Mixture-of-Experts (MoE)モデルは、専門家をわずかに活性化することで、大きな言語モデルを効率的にスケールするが、専門家が選択されると、完全に実行される。
提案するMoEアーキテクチャであるMixture of Slimmable Experts (MoSE)を提案する。
論文 参考訳(メタデータ) (2026-02-05T19:48:41Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - SYMI: Efficient Mixture-of-Experts Training via Model and Optimizer State Decoupling [1.2777855412373709]
Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずに、モデルサイズを拡大し続けるために広く採用されているソリューションとなっている。
現在のシステムでは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせなければならない。
適応型MOEトレーニングシステムであるSYMIを紹介する。
論文 参考訳(メタデータ) (2025-04-28T15:58:55Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。
スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。
トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文 参考訳(メタデータ) (2021-03-30T23:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。