Fugu-MT 論文翻訳(概要): LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training

論文の概要: LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training

arxiv url: http://arxiv.org/abs/2602.11686v1
Date: Thu, 12 Feb 2026 08:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.711583
Title: LAER-MoE: Load-Adaptive Expert Re-layout for Efficient Mixture-of-Experts Training
Title（参考訳）: LAER-MoE: 効率的な混合訓練のための負荷適応型エキスパートリレイアウト
Authors: Xinyi Liu, Yujie Wang, Fangcheng Fu, Xuefeng Xiao, Huixia Li, Jiashi Li, Bin Cui,
Abstract要約: 本稿では,効率的なMoEトレーニングフレームワークであるLAER-MoEを紹介する。 LAER-MoEの中核は、新しい並列パラダイムであるFully Sharded Expert Parallel(FSEP)である。我々はA100クラスタ上で実験を行い、その結果、現在の最先端のトレーニングシステムと比較して最大1.69倍の加速を実現していることを示す。
参考スコア（独自算出の注目度）: 27.022187489292467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Expert parallelism is vital for effectively training Mixture-of-Experts (MoE) models, enabling different devices to host distinct experts, with each device processing different input data. However, during expert parallel training, dynamic routing results in significant load imbalance among experts: a handful of overloaded experts hinder overall iteration, emerging as a training bottleneck. In this paper, we introduce LAER-MoE, an efficient MoE training framework. The core of LAER-MoE is a novel parallel paradigm, Fully Sharded Expert Parallel (FSEP), which fully partitions each expert parameter by the number of devices and restores partial experts at expert granularity through All-to-All communication during training. This allows for flexible re-layout of expert parameters during training to enhance load balancing. In particular, we perform fine-grained scheduling of communication operations to minimize communication overhead. Additionally, we develop a load balancing planner to formulate re-layout strategies of experts and routing schemes for tokens during training. We perform experiments on an A100 cluster, and the results indicate that our system achieves up to 1.69x acceleration compared to the current state-of-the-art training systems. Source code available at https://github.com/PKU-DAIR/Hetu-Galvatron/tree/laer-moe.
Abstract（参考訳）: エキスパート並列性は、Mixture-of-Experts(MoE)モデルを効果的にトレーニングするために不可欠である。しかし、エキスパートの並列トレーニングの間、動的ルーティングは専門家の間で大きな負荷の不均衡をもたらす。本稿では,効率的なMoEトレーニングフレームワークであるLAER-MoEを紹介する。 LAER-MoEのコアは、新しい並列パラダイムであるFully Sharded Expert Parallel(FSEP)である。これにより、トレーニング中のエキスパートパラメータのフレキシブルなリレイアウトが可能になり、ロードバランシングが強化される。特に,通信オーバヘッドを最小限に抑えるために,通信操作のきめ細かいスケジューリングを行う。さらに,エキスパートの再レイアウト戦略と,トレーニング中のトークンのルーティングスキームを定式化するロードバランシングプランナを開発した。我々はA100クラスタ上で実験を行い、その結果、現在の最先端のトレーニングシステムと比較して最大1.69倍の加速を実現していることを示す。ソースコードはhttps://github.com/PKU-DAIR/Hetu-Galvatron/tree/laer-moeで公開されている。

関連論文リスト

MoSE: Mixture of Slimmable Experts for Efficient and Adaptive Language Models [28.87682703032017]
Mixture-of-Experts (MoE)モデルは、専門家をわずかに活性化することで、大きな言語モデルを効率的にスケールするが、専門家が選択されると、完全に実行される。提案するMoEアーキテクチャであるMixture of Slimmable Experts (MoSE)を提案する。
論文参考訳（メタデータ） (2026-02-05T19:48:41Z)
SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文参考訳（メタデータ） (2026-02-02T11:47:06Z)
Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文参考訳（メタデータ） (2026-01-23T18:19:15Z)
Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文参考訳（メタデータ） (2025-09-30T16:56:44Z)
TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts [4.5558042369389105]
TT-LoRA MoEはトレーニングを2つの異なる最適化段階に分解する。まず、軽量かつテンソル化低ランクアダプタ(TT-LoRAエキスパート)を個別に訓練する。その後、これらの専門家アダプタは凍結状態のままであり、マルチタスク設定でタスク間干渉を排除し、忘れる。個別に訓練されたスパースMOEルータは、ベースモデル表現を動的に活用し、推論時に入力ごとに正確に1つの特別なアダプタを選択する。総合的な実験により、我々のアーキテクチャは低ランクアダプタのメモリ効率を保ち、大きなエキスパートプールにシームレスにスケールし、堅牢なタスクレベルの最適化を実現する。
論文参考訳（メタデータ） (2025-04-29T21:46:43Z)
SYMI: Efficient Mixture-of-Experts Training via Model and Optimizer State Decoupling [1.2777855412373709]
Mixture-of-Experts (MoE)モデルは、計算の線形増加を伴わずに、モデルサイズを拡大し続けるために広く採用されているソリューションとなっている。現在のシステムでは、人気のある専門家に割り当てられたトークンをドロップするか、収束を低下させるか、あるいは人気に基づいて各専門家に割り当てられたリソースを頻繁に再バランスさせなければならない。適応型MOEトレーニングシステムであるSYMIを紹介する。
論文参考訳（メタデータ） (2025-04-28T15:58:55Z)
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。 BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文参考訳（メタデータ） (2024-03-12T16:54:58Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
BASE Layers: Simplifying Training of Large, Sparse Models [53.98145464002843]
我々は,大規模言語モデルのための新しいバランスド・アサイン・オブ・エキスパート(base)層を導入する。スパース層は、各トークンを専門のエキスパートモジュールにルーティングすることで、トレーニングと推論の効率を劇的に改善することができる。トークン対エキスパート割り当てを線形割り当て問題として定式化し、各専門家が等しいトークン数を受け取る最適な割り当てを可能にする。
論文参考訳（メタデータ） (2021-03-30T23:08:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。