論文の概要: X-MoE: Enabling Scalable Training for Emerging Mixture-of-Experts Architectures on HPC Platforms
- arxiv url: http://arxiv.org/abs/2508.13337v1
- Date: Mon, 18 Aug 2025 19:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.717222
- Title: X-MoE: Enabling Scalable Training for Emerging Mixture-of-Experts Architectures on HPC Platforms
- Title(参考訳): X-MoE: HPCプラットフォーム上でのMixture-of-Expertsアーキテクチャの進化のためのスケーラブルなトレーニングの実現
- Authors: Yueming Yuan, Ahan Gupta, Jianping Li, Sajal Dash, Feiyi Wang, Minjia Zhang,
- Abstract要約: 我々は,次世代MoEアーキテクチャのスケーラブルなトレーニング性能を実現するために設計された,新しいMoEトレーニングシステムであるX-MoEを紹介する。
X-MoEは、クロスプラットフォームカーネルによる効率的なパディングフリーなMoEトレーニング、冗長性バイパスディスパッチ、シーケンスシャーディングされたMoEブロックによるハイブリッド並列化など、いくつかの新しい手法によってこれを達成している。
- 参考スコア(独自算出の注目度): 15.572112199097132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging expert-specialized Mixture-of-Experts (MoE) architectures, such as DeepSeek-MoE, deliver strong model quality through fine-grained expert segmentation and large top-k routing. However, their scalability is limited by substantial activation memory overhead and costly all-to-all communication. Furthermore, current MoE training systems - primarily optimized for NVIDIA GPUs - perform suboptimally on non-NVIDIA platforms, leaving significant computational potential untapped. In this work, we present X-MoE, a novel MoE training system designed to deliver scalable training performance for next-generation MoE architectures. X-MoE achieves this via several novel techniques, including efficient padding-free MoE training with cross-platform kernels, redundancy-bypassing dispatch, and hybrid parallelism with sequence-sharded MoE blocks. Our evaluation on the Frontier supercomputer, powered by AMD MI250X GPUs, shows that X-MoE scales DeepSeek-style MoEs up to 545 billion parameters across 1024 GPUs - 10x larger than the largest trainable model with existing methods under the same hardware budget, while maintaining high training throughput. The source code of X-MoE is available at https://github.com/Supercomputing-System-AI-Lab/X-MoE.
- Abstract(参考訳): DeepSeek-MoEのようなエキスパート専門のMixture-of-Experts(MoE)アーキテクチャは、詳細なエキスパートセグメンテーションと大きなトップkルーティングを通じて、強力なモデル品質を提供する。
しかし、そのスケーラビリティは、相当なアクティベーションメモリオーバーヘッドと費用対全通信によって制限される。
さらに、現在のMoEトレーニングシステム(主にNVIDIA GPUに最適化されている)は、NVIDIA以外のプラットフォームで亜最適に動作し、大きな計算ポテンシャルを未使用のまま残している。
本稿では,次世代MoEアーキテクチャのスケーラブルなトレーニング性能を実現するために設計された,新しいMoEトレーニングシステムであるX-MoEを紹介する。
X-MoEは、クロスプラットフォームカーネルによる効率的なパディングフリーなMoEトレーニング、冗長性バイパスディスパッチ、シーケンスシャーディングされたMoEブロックによるハイブリッド並列化など、いくつかの新しい手法によってこれを達成している。
AMD MI250X GPUをベースとしたFrontierスーパーコンピュータの評価によると、X-MoEは1024GPUで最大545億のパラメータをスケールする。
X-MoEのソースコードはhttps://github.com/Supercomputing-System-AI-Lab/X-MoEで入手できる。
関連論文リスト
- MoE-Gen: High-Throughput MoE Inference on a Single GPU with Module-Based Batching [2.543762777822215]
MoE-GenはシングルGPU実行のための高速なMoE推論システムである。
モジュールベースのトークンを導入し、ホストメモリに蓄積し、大きなバッチを動的に起動して利用を最大化する。
MoE-Genは最先端システムに比べて8-31倍高いスループットを実現している。
論文 参考訳(メタデータ) (2025-03-12T18:08:01Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - MegaBlocks: Efficient Sparse Training with Mixture-of-Experts [19.541303844245835]
MegaBlocksはGPU上でのMixture-of-Experts(MoE)トレーニングを効率的に行うシステムである。
ブロックスパース演算の観点からMoEを再構成し,新しいブロックスパースGPUカーネルを開発する。
当社のアプローチではトークンやマップを現代的なハードウェアに効率的にドロップすることはなく、MoEよりも最大40%のエンドツーエンドのトレーニングスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-11-29T00:27:08Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z) - FastMoE: A Fast Mixture-of-Expert Training System [20.74001755688784]
Mixture-of-Expert (MoE) は言語モデルのサイズを数兆のパラメータに拡大する強力な可能性を示す。
FastMoEはPyTorchをベースとした分散MoEトレーニングシステムである。
論文 参考訳(メタデータ) (2021-03-24T15:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。