論文の概要: Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2601.17111v1
- Date: Fri, 23 Jan 2026 18:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.236531
- Title: Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts
- Title(参考訳): 最低負荷のエキスパート並列性 - バランスの取れないミスマッチのロードバランシング
- Authors: Xuan-Phi Nguyen, Shrey Pandit, Austin Xu, Caiming Xiong, Shafiq Joty,
- Abstract要約: エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
- 参考スコア(独自算出の注目度): 74.40169987564724
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) models are typically pre-trained with explicit load-balancing constraints to ensure statistically balanced expert routing. Despite this, we observe that even well-trained MoE models exhibit significantly imbalanced routing. This behavior is arguably natural-and even desirable - as imbalanced routing allows models to concentrate domain-specific knowledge within a subset of experts. Expert parallelism (EP) is designed to scale MoE models by distributing experts across multiple devices, but with a less-discussed assumption of balanced routing. Under extreme imbalance, EP can funnel a disproportionate number of tokens to a small number of experts, leading to compute- and memory-bound failures on overloaded devices during post-training or inference, where explicit load balancing is often inapplicable. We propose Least-Loaded Expert Parallelism (LLEP), a novel EP algorithm that dynamically reroutes excess tokens and associated expert parameters from overloaded devices to underutilized ones. This ensures that all devices complete their workloads within the minimum collective latency while respecting memory constraints. Across different model scales, LLEP achieves up to 5x speedup and 4x reduction in peak memory usage compared to standard EP. This enables faster and higher-throughput post-training and inference, with ~1.9x faster for gpt-oss-120b. We support our method with extensive theoretical analysis and comprehensive empirical evaluations, including ablation studies. These results illuminate key trade-offs and enable a principled framework for hardware-specific hyper-parameter tuning to achieve optimal performance.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは通常、統計的にバランスの取れた専門家のルーティングを保証するために、明示的な負荷分散制約で事前訓練される。
それにもかかわらず、十分に訓練されたMoEモデルでさえ、ルーティングが著しく不均衡であることを示す。
不均衡なルーティングにより、モデルはエキスパートのサブセットにドメイン固有の知識を集中することができます。
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下では、EPは少数の専門家に不均等な数のトークンを転送することができ、トレーニング後や推論中に過負荷のデバイスで計算とメモリバウンドの障害が発生する。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
これにより、メモリ制約を尊重しながら、すべてのデバイスが最小全体のレイテンシでワークロードを完了する。
モデルスケールの異なるLLEPは、標準EPに比べて最大5倍のスピードアップと4倍のピークメモリ使用率を実現している。
これにより、gpt-oss-120bでは1.9倍速くなる。
我々はアブレーション研究を含む広範囲な理論的分析と総合的な経験的評価により,本手法を支援した。
これらの結果は、重要なトレードオフを照らし、ハードウェア固有のハイパーパラメータチューニングのための原則化されたフレームワークにより、最適なパフォーマンスを実現する。
関連論文リスト
- A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models [3.0247776995428945]
大規模なAIトレーニングでは、Sparse Mixture-of-Experts(s-MoE)レイヤによって、トークン当たりのエキスパートの小さなサブセットのみを活性化することで、スケーリングが可能になる。
本稿では,ALF-LB (Auxiliary-Loss-Free Load Balancing) 法を理論的に解析する枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-03T16:00:02Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - From Score Distributions to Balance: Plug-and-Play Mixture-of-Experts Routing [52.01745035243826]
Mixture-of-Experts (MoE)モデルは、各トークンを専門家のサブセットにルーティングすることで、パラメータキャパシティをスケールすることができる。
条件付きルーティングは、推論メモリの負荷をシフトし、デバイスごとに専門家の数を制限する。
本稿では,精度を保ちながら負荷のバランスをとるプラグイン・アンド・プレイ型推論時ルーティングアルゴリズムLASERを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:29:17Z) - Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts [0.0]
Latent Prototype Routing (LPR)は、下流のパフォーマンスを損なうことなく、専門家のバランスのとれた利用を促進する新しいルーティングフレームワークである。
LPRは、専門家負荷のジーニ係数を平均0.70から0.035に減らし、専門家負荷比を1e-6から0.070に改善し、ほぼ完全な負荷分散を実現する。
論文 参考訳(メタデータ) (2025-06-26T14:41:18Z) - Load Balancing Mixture of Experts with Similarity Preserving Routers [30.279616888339543]
Sparse Mixture of Experts (MoE)モデルは、大規模なニューラルネットワークをトレーニングするためのスケーラブルで効率的なアーキテクチャを提供する。
トークン単位のリレーショナル構造を保持する新しいロードバランシング損失を導入する。
その結果, ルータの損失は36%, 収束速度は36%向上し, 冗長性が低下することがわかった。
論文 参考訳(メタデータ) (2025-06-16T22:22:59Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。