論文の概要: Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs
- arxiv url: http://arxiv.org/abs/2603.02731v1
- Date: Tue, 03 Mar 2026 08:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.71268
- Title: Practical FP4 Training for Large-Scale MoE Models on Hopper GPUs
- Title(参考訳): ホッパーGPUによる大規模MOEモデルの実践的FP4トレーニング
- Authors: Wuyue Zhang, Chongdong Huang, Chunbo You, Cheng Gu, Fengjuan Wang, Mou Sun,
- Abstract要約: 大規模なMixture-of-Experts(MoE)モデルのトレーニングは、アクティベーションメモリとエキスパート-並列通信によってボトルネックとなる。
4ビットのネイティブサポートを伴わないHopper上でMoEモデルのMXFP4効率を実現するためのトレーニングレシピを提案する。
- 参考スコア(独自算出の注目度): 2.576131688630686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large-scale Mixture-of-Experts (MoE) models is bottlenecked by activation memory and expert-parallel communication, yet FP4 training remains impractical on Hopper-class GPUs without native MXFP4 or NVFP4 support. In this work, we present a training recipe that enables MXFP4 efficiency for MoE models on Hopper architectures without native 4-bit computation support. A central challenge is to integrate FP4 into an existing BF16/FP8 hybrid training pipeline without incurring costly precision round-trips (e.g., FP4 $\leftrightarrow$ BF16 $\leftrightarrow$ FP8). We address this challenge by introducing direct FP8-to-FP4 quantization and de-quantization, together with scaling-aware FP4 row-wise to column-wise conversion, enabling FP4 activations and expert-parallel communication with minimal overhead. Core MoE computations are executed in FP8, while activations and expert-parallel communication are compressed using MXFP4, achieving substantial memory and bandwidth savings without degrading convergence. At the 671B parameter scale, our method achieves end-to-end training performance comparable to strong FP8 baselines, while reducing peak activation memory by 14.8\% (11.8 GB) and improving training throughput by 12.5\%, from 1157 to 1302 tokens per GPU per second. These results show that FP4 efficiency can be practically realized for large-scale MoE training through careful software-hardware co-design, even without native FP4 Tensor Core support.
- Abstract(参考訳): 大規模なMixture-of-Experts(MoE)モデルのトレーニングはアクティベーションメモリとエキスパート並列通信によってボトルネックになるが、FP4トレーニングはネイティブMXFP4やNVFP4をサポートしないホッパークラスのGPUでは実用的ではない。
本研究では,4ビット計算をネイティブにサポートせずに,ホッパーアーキテクチャ上でのMoEモデルのMXFP4効率を実現するためのトレーニングレシピを提案する。
FP4を既存のBF16/FP8ハイブリッドトレーニングパイプラインに統合することで、コストのかかるラウンドトリップ(例えば、FP4 $\leftrightarrow$ BF16 $\leftrightarrow$ FP8)を発生させることなく、FP4を既存のBF16/FP8ハイブリッドトレーニングパイプラインに統合する。
直接FP8-to-FP4量子化と非量子化を導入し、最小オーバーヘッドでFP4アクティベーションとエキスパート並列通信を可能にする。
コアMoE計算はFP8で実行され、アクティベーションとエキスパート並列通信はMXFP4で圧縮される。
671Bのパラメータスケールでは、FP8ベースラインに匹敵するエンドツーエンドのトレーニング性能を達成し、ピークアクティベーションメモリを14.8\%(11.8GB)削減し、トレーニングスループットを12.5\%向上させ、毎秒1157から1302トークンまで改善した。
これらの結果から,ネイティブなFP4 Tensor Coreサポートがなくても,ソフトウェアとソフトウェアを慎重に共同設計することで,大規模なMoEトレーニングにおいてFP4の効率性を実現することが可能であることが示唆された。
関連論文リスト
- Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Training LLMs with MXFP4 [16.524414449291488]
サポート対象ハードウェアのFP8よりも2倍高速なMXFP4 GEMMを用いた,最初のニアロスレストレーニングレシピを提示する。
我々のレシピでは、MXFP4のトレーニングFLOPを1/2$で計算し、バックプロパゲーション時に、FP8よりも$1.3times$、BF16より$1.7times$と見積もることができる。
論文 参考訳(メタデータ) (2025-02-27T23:01:31Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。
これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。
このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文 参考訳(メタデータ) (2024-11-10T15:19:42Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。