論文の概要: Scalable Training of Mixture-of-Experts Models with Megatron Core
- arxiv url: http://arxiv.org/abs/2603.07685v2
- Date: Tue, 10 Mar 2026 06:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.034201
- Title: Scalable Training of Mixture-of-Experts Models with Megatron Core
- Title(参考訳): Megatron Coreを用いたMixture-of-Expertsモデルのスケーラブルトレーニング
- Authors: Zijie Yan, Hongxiao Bai, Xin Yao, Dennis Liu, Tong Liu, Hongbin Liu, Pingtian Li, Evan Wu, Shiqing Fan, Li Tao, Robin Zhang, Yuzhong Wang, Shifang Xu, Jack Chang, Xuwen Chen, Kunlun Li, Yan Bai, Gao Deng, Nan Zheng, Vijay Anand Korthikanti, Abhinav Khattar, Ethan He, Soham Govande, Sangkug Lym, Zhongbo Zhu, Qi Zhang, Haochen Yuan, Xiaowei Ren, Deyu Fu, Tailai Ma, Shunkang Zhang, Jiang Shao, Ray Wang, Vasudevan Rengasamy, Rachit Garg, Santosh Bhavani, Xipeng Li, Chandler Zhou, David Wu, Yingcan Wei, Ashwath Aithal, Michael Andersch, Mohammad Shoeybi, Jiajie Yao, June Yang,
- Abstract要約: MOE(Scaling Mixture-of-Experts)トレーニングでは、密集したモデルに欠けているシステムの課題が導入されている。
各トークンは専門家のサブセットのみを活性化するため、このスパーシリティにより、トータルパラメータはトーケン計算よりもはるかに高速に成長できる。
メモリ(微細な再計算,オフロード,通信,計算)の統合最適化により,MoEトレーニングにおけるこれらの課題に対処する。
- 参考スコア(独自算出の注目度): 26.9162079065285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling Mixture-of-Experts (MoE) training introduces systems challenges absent in dense models. Because each token activates only a subset of experts, this sparsity allows total parameters to grow much faster than per-token computation, creating coupled constraints across memory, communication, and computation. Optimizing one dimension often shifts pressure to another, demanding co-design across the full system stack. We address these challenges for MoE training through integrated optimizations spanning memory (fine-grained recomputation, offloading, etc.), communication (optimized dispatchers, overlapping, etc.), and computation (Grouped GEMM, fusions, CUDA Graphs, etc.). The framework also provides Parallel Folding for flexible multi-dimensional parallelism, low-precision training support for FP8 and NVFP4, and efficient long-context training. On NVIDIA GB300 and GB200, it achieves 1,233/1,048 TFLOPS/GPU for DeepSeek-V3-685B and 974/919 TFLOPS/GPU for Qwen3-235B. As a performant, scalable, and production-ready open-source solution, it has been used across academia and industry for training MoE models ranging from billions to trillions of parameters on clusters scaling up to thousands of GPUs. This report explains how these techniques work, their trade-offs, and their interactions at the systems level, providing practical guidance for scaling MoE models with Megatron Core.
- Abstract(参考訳): MOE(Scaling Mixture-of-Experts)トレーニングでは、密集したモデルに欠けているシステムの課題が導入されている。
各トークンは専門家のサブセットだけを起動するので、このスパーシリティにより、トータルパラメータはトーケン毎の計算よりもはるかに高速に成長し、メモリ、通信、計算にまたがる制約を生成することができる。
ある次元を最適化することは、しばしば圧力を別の次元にシフトさせ、システムスタック全体にわたって共同設計を要求する。
メモリ(微粒な再計算、オフロードなど)、通信(最適化されたディスパッチ、オーバーラップなど)、計算(グループGEMM、融合、CUDAグラフなど)にまたがるMoEトレーニングの課題に対処する。
このフレームワークは、フレキシブルな多次元並列処理のためのParallel Folding、FP8とNVFP4の低精度トレーニングサポート、より効率的なロングコンテキストトレーニングを提供する。
NVIDIA GB300とGB200では、DeepSeek-V3-685Bで1,233/1,048 TFLOPS/GPU、Qwen3-235Bで974/919 TFLOPS/GPUを達成した。
パフォーマンスが高く、スケーラブルで、プロダクション対応のオープンソースソリューションとして、数千のGPUにスケールアップするクラスタ上で、数十億から数兆のパラメータを含むMoEモデルをトレーニングするために、学界や業界で使用されている。
本稿では,これらの技術がどのように機能し,そのトレードオフとシステムレベルでの相互作用を解説し,Megatron CoreでMoEモデルをスケールするための実践的なガイダンスを提供する。
関連論文リスト
- Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - MoE Parallel Folding: Heterogeneous Parallelism Mappings for Efficient Large-Scale MoE Model Training with Megatron Core [11.40633051522406]
大規模MOEモデルのエンドツーエンドトレーニングフレームワークを提案する。
MoE Parallel Foldingは、Transformerモデルにおける注目とMoEの並列化を分離する新しい戦略である。
フレキシブルなトークンレベルディスパッチはトークンドロップとトークンドロップレスのMoEトレーニングの両方をサポートする。
論文 参考訳(メタデータ) (2025-04-21T08:39:47Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [67.37017498784748]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。
提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。