論文の概要: UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing
- arxiv url: http://arxiv.org/abs/2606.04101v1
- Date: Tue, 02 Jun 2026 18:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.307476
- Title: UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing
- Title(参考訳): UltraEP: ほぼ最適なロードバランシングを備えたラックスケールノード上でのアンリーシュMoEトレーニングと推論
- Authors: Xinming Wei, Chao Jin, Tuo Dai, Yinmin Zhong, Shan Yu, Chengxu Yang, Bingyang Wu, Zili Zhang, Jing Mai, Qianchao Zhu, Zhouyang Li, Yuliang Liu, Guojie Luo,
- Abstract要約: 大規模MOEトレーニングとラックスケールノード(RSN)のプリフィルのための,最初の完全ロードリアルタイムバランサであるUltraEPを提案する。
RSNの拡張スケールアップ接続に基づいて構築されたUltraEPは、クリティカルパス上のすべてのマイクロバッチとレイヤを再バランスする。
トレーニングおよびプリフィルにおける106Bから671BパラメータのMoEモデルの平均値として、UltraEPは力バランスの理想的なスループットの94.3%を達成している。
- 参考スコア(独自算出の注目度): 28.287651382171692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale expert parallelism (EP) is becoming pivotal for training and serving frontier MoE models, but it also amplifies device-level expert load imbalance into compute stragglers, token all-to-all bottlenecks, and activation-memory spikes. Existing balancers redistribute experts periodically based on historical load, which becomes unreliable for production deployments with non-stationary load patterns. We present UltraEP, the first exact-load, real-time balancer for large-EP MoE training and serving prefill on rack-scale nodes (RSNs). Built upon the extended scale-up connectivity of RSNs, UltraEP rebalances every microbatch and layer on critical paths, which requires nontrivial co-design of plan solving and expert replication communication to minimize exposed overhead. To this end, UltraEP eagerly reacts to post-gating load with efficient quota-driven planning, and executes the resulting irregular expert-state transfers with RSN-native persistent tile streaming and relay-based fan-out mitigation. Averaged across MoE models from 106B to 671B parameters in training and prefill, UltraEP achieves 94.3% of the force-balanced ideal throughput, delivering 1.49$\times$ improvement over non-balancing, while reducing the final inter-rank imbalance from 1.30$-$4.01 to 1.01$-$1.04. Additionally, we validate UltraEP's scalability and robustness in production MoE training with 2560 GPUs.
- Abstract(参考訳): 大規模なエキスパート並列処理(EP)は、フロンティアMoEモデルのトレーニングと提供において重要になっているが、デバイスレベルのエキスパート負荷不均衡を計算ストラグラー、トークンオールツーオールボトルネック、アクティベーションメモリスパイクに増幅する。
既存のバランサは、履歴的な負荷に基づいて定期的に専門家を再配布する。
我々は,大規模なMOEトレーニングとラックスケールノード(RSN)のプリフィルを行うための,最初の完全ロードリアルタイムバランサであるUltraEPを紹介する。
RSNのスケールアップ接続を拡張して構築されたUltraEPは、すべてのマイクロバッチとレイヤをクリティカルパスで再バランスさせる。
この目的のために、UltraEPは効率的なクォータ駆動計画による後負荷に熱心に反応し、RSNネイティブな永続タイルストリーミングとリレーベースのファンアウト緩和によって結果として生じる不規則な専門家状態転送を実行する。
トレーニングとプリフィルにおける106Bから671Bのパラメータから平均して、UltraEPは力バランスの理想的なスループットの94.3%を達成し、非バランスよりも1.49$\times$改善し、最終的なランク間不均衡を1.30$-4.01から1.01$-1.04に減らした。
さらに,2560GPUを用いた実運用MoEトレーニングにおいて,UltraEPのスケーラビリティと堅牢性を検証した。
関連論文リスト
- $φ$-Balancing for Mixture-of-Experts Training [20.061328126956028]
Mixture-of-Experts (MoE)モデルは、そのスケーラビリティを完全に実現するために、バランスのとれた専門家の利用に依存します。
我々は,厳密な凸性,対称性,および予測されるルーティング分布の微分ポテンシャルを最小化することにより,集団レベルの専門家バランスを直接ターゲットとする原則的フレームワークである$-balancingを提案する。
論文 参考訳(メタデータ) (2026-05-14T20:39:28Z) - TurboGR: An Accelerated Training System for Large-Scale Generative Recommendation [9.645364292862624]
ジェネレーティブレコメンデーション(GR)は、断片化されたシナリオ固有のアーキテクチャをトランスフォーマーベースの統一モデルに置き換える、有望なパラダイムとして登場した。
Ascend NPU上でGRを大規模にデプロイすることは、システムレベルの根本的な課題に直面します。
生成推薦のためのアセンド・アフィニティ・トレーニング・システムであるモデルを提案する。
論文 参考訳(メタデータ) (2026-05-13T12:26:29Z) - FEMBA on the Edge: Physiologically-Aware Pre-Training, Quantization, and Deployment of a Bidirectional Mamba EEG Foundation Model on an Ultra-low Power Microcontroller [13.961569964076451]
脳波の21,000時間以上で事前トレーニングされた双方向のマンバアーキテクチャであるFEMBAを提案する。
低域通過フィルタリングによる再構成を含む,生理的事前学習の新たな目標を提案する。
我々は、モデルを2ビットの重みに圧縮するために量子化アウェアトレーニング(QAT)を用いる。
論文 参考訳(メタデータ) (2026-03-18T13:23:13Z) - A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts [0.0]
Latent Prototype Routing (LPR)は、下流のパフォーマンスを損なうことなく、専門家のバランスのとれた利用を促進する新しいルーティングフレームワークである。
LPRは、専門家負荷のジーニ係数を平均0.70から0.035に減らし、専門家負荷比を1e-6から0.070に改善し、ほぼ完全な負荷分散を実現する。
論文 参考訳(メタデータ) (2025-06-26T14:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。