論文の概要: HierMoE: Accelerating MoE Training with Hierarchical Token Deduplication and Expert Swap
- arxiv url: http://arxiv.org/abs/2508.09591v1
- Date: Wed, 13 Aug 2025 08:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.807537
- Title: HierMoE: Accelerating MoE Training with Hierarchical Token Deduplication and Expert Swap
- Title(参考訳): HierMoE: 階層型トークン重複とエキスパートスワップによるMoEトレーニングの高速化
- Authors: Wenxiang Lin, Xinglin Pan, Lin Zhang, Shaohuai Shi, Xuan Wang, Xiaowen Chu,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングを2つのトポロジ対応技術で高速化するためにHierMoEを導入する。
プロトタイプのHierMoEは、1.55times$から3.32times$高速通信を実現し、1.18times$から1.27times$高速エンドツーエンドトレーニングを実現しています。
- 参考スコア(独自算出の注目度): 17.1806530983927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparsely activated mixture-of-experts (MoE) transformer has become a common architecture for large language models (LLMs) due to its sparsity, which requires fewer computational demands while easily scaling the model size. In MoE models, each MoE layer requires to dynamically choose tokens to activate particular experts for computation while the activated experts may not be located in the same device or GPU as the token. However, this leads to substantial communication and load imbalances across all GPUs, which obstructs the scalability of distributed systems within a GPU cluster. To this end, we introduce HierMoE to accelerate the training of MoE models by two topology-aware techniques: 1) token deduplication to reduce the communication traffic, and 2) expert swap to balance the workloads among all GPUs. To enable the above two proposed approaches to be more general, we build theoretical models aimed at achieving the best token duplication and expert swap strategy under different model configurations and hardware environments. We implement our prototype HierMoE system atop Megatron-LM and conduct experiments on a 32-GPU cluster with DeepSeek-V3 and Qwen3-30B-A3B models. Experimental results show that our HierMoE achieves $1.55\times$ to $3.32\times$ faster communication and delivers $1.18\times$ to $1.27\times$ faster end-to-end training compared to state-of-the-art MoE training systems, Tutel-2DH, SmartMoE, and Megatron-LM.
- Abstract(参考訳): 希薄に活性化されたMix-of-experts (MoE) トランスフォーマーは,その拡張性から大規模言語モデル(LLM)の共通アーキテクチャとなっている。
MoEモデルでは、各MoE層は計算のために特定の専門家を活性化するためにトークンを動的に選択する必要があるが、アクティベートされた専門家はトークンと同じデバイスやGPUに配置されない可能性がある。
しかし、これはすべてのGPU間での通信と負荷の不均衡につながり、GPUクラスタ内の分散システムのスケーラビリティを阻害する。
この目的のために、HierMoEを導入し、2つのトポロジ対応技術によるMoEモデルのトレーニングを加速する。
1)通信トラフィックを減らすためのトークンの重複
2) エキスパートスワップは、すべてのGPU間でワークロードのバランスをとる。
上記の2つの提案手法をより一般的なものにするために,異なるモデル構成とハードウェア環境下でのトークン複製とエキスパートスワップ戦略の実現を目的とした理論モデルを構築した。
We implement our prototype HierMoE system on Megatron-LM and conduct on a 32-GPU cluster with DeepSeek-V3 and Qwen3-30B-A3B models。
実験の結果、我々のHierMoEは1.55\times$から3.32\times$高速通信を実現し、1.18\times$から1.27\times$最先端のMoEトレーニングシステム、Tutel-2DH、SmartMoE、Megatron-LMよりも高速なエンドツーエンドトレーニングを実現している。
関連論文リスト
- SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation [82.53411922988039]
SlimMoEは、大規模なMoEモデルをより小さく効率的な変種に変換するための多段階圧縮フレームワークである。
このフレームワークを用いて、Phi 3.5-MoE (41.9Bトータル/6.6Bアクティベートパラメータ)を圧縮し、Phi-mini-MoE (7.6Bトータル/2.4Bアクティベートパラメータ)とPhi-tiny-MoE (3.8Bトータル/1.1Bアクティベートパラメータ)を生成する。
実験により、圧縮されたモデルが他のモデルと同等の大きさのモデルよりも優れ、より大きなモデルと競合し続けていることが示された。
論文 参考訳(メタデータ) (2025-06-23T07:15:59Z) - Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.54207710201183]
MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。
Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
論文 参考訳(メタデータ) (2025-05-27T16:40:21Z) - FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models [21.96960353910023]
3つの新しい手法でタスクスケジューリングを最適化するフレキシブルなトレーニングシステムFSMoEを紹介する。
我々は、2つのGPUクラスタ上で、構成されたMoE層と実世界のMoEモデルで広範な実験を行う。
FSMoEは4種類のMoEルーティング機能をサポートしており、既存の実装よりも効率的である。
論文 参考訳(メタデータ) (2025-01-18T10:14:37Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。