論文の概要: FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error
- arxiv url: http://arxiv.org/abs/2511.02302v1
- Date: Tue, 04 Nov 2025 06:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.830436
- Title: FP8-Flow-MoE: A Casting-Free FP8 Recipe without Double Quantization Error
- Title(参考訳): FP8-Flow-MoE:二重量子化誤差のない鋳型フリーFP8レシピ
- Authors: Fengjuan Wang, Zhiyi Su, Xingzhu Hu, Cheng Wang, Mou Sun,
- Abstract要約: 大規模なMixture-of-Experts(MoE)モデルのトレーニングは、極端な計算とメモリ要求のため、計算的に禁じられている。
FP8-Flow-MoEは,スケールアウェア計算と融合したFP8演算子を備えた量子化一貫性FP8中心のデータフローを特徴とする学習レシピである。
- 参考スコア(独自算出の注目度): 3.281844093101284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large Mixture-of-Experts (MoE) models remains computationally prohibitive due to their extreme compute and memory demands. Although low-precision training promises to accelerate computation and reduce memory footprint, existing implementations still rely on BF16-dominated dataflows with frequent quantize-dequantize (Q/DQ) conversions. These redundant casts erode much of FP8's theoretical efficiency. However, naively removing these casts by keeping dataflows entirely in FP8 introduces double quantization error: tensors quantized along different dimensions accumulate inconsistent scaling factors, degrading numerical stability. We propose FP8-Flow-MoE, an FP8 training recipe featuring a quantization-consistent FP8-centric dataflow with a scaling-aware transpose and fused FP8 operators that streamline computation and eliminate explicit cast operations from 12 to 2. Evaluations on a 671B-parameter MoE model demonstrate up to 21\% higher throughput and 16.5 GB lower memory usage per GPU compared to BF16 and na\"ive FP8 baselines, while maintaining stable convergence. We provide a plug-and-play FP8 recipe compatible with TransformerEngine and Megatron-LM, which will be open-sourced soon.
- Abstract(参考訳): 大規模なMixture-of-Experts(MoE)モデルのトレーニングは、極端な計算とメモリ要求のため、計算的に禁じられている。
低精度のトレーニングは、計算の高速化とメモリフットプリントの削減を約束するが、既存の実装は、しばしば量子化量(Q/DQ)変換を伴うBF16が支配するデータフローに依存している。
これらの冗長な鋳造はFP8の理論的効率の多くを損なう。
しかし、データフローを完全にFP8に保持することで、これらのキャストを自然に除去することは二重量子化誤差をもたらす: 異なる次元に沿って量子化されたテンソルは、一貫性のないスケーリング因子を蓄積し、数値安定性を低下させる。
FP8-Flow-MoE(FP8-Flow-MoE)は、FP8中心のデータフローにスケールアウェアなトランスポーズと融合されたFP8演算子を組み込んだFP8トレーニングレシピで、計算を効率化し、12から2までの明示的なキャスト操作を除去する。
671BパラメータMOEモデルの評価では、安定した収束を維持しながら、BF16やna\のFP8ベースラインと比較して、GPU当たりのスループットが21\%、メモリ使用量が16.5GBに向上した。
TransformerEngineやMegatron-LMと互換性のあるプラグイン・アンド・プレイのFP8レシピを提供する。
関連論文リスト
- Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - An Inquiry into Datacenter TCO for LLM Inference with FP8 [18.01919466758935]
大規模言語モデル(LLM)の計算特性をTCOの観点から解析する。
我々は、Intel(Gaudi 2 & 3)とNVIDIA(H100 & H200)のAIアクセラレーターにおけるTCOに影響を与える重要なワークロード特性について検討する。
ガウディHPUは,特にFP8量子化モデルにおいて,薄型GEMMよりも優れた利用率が得られることがわかった。
論文 参考訳(メタデータ) (2025-02-03T05:26:22Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文 参考訳(メタデータ) (2023-12-10T02:14:34Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed
FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される
LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。
実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文 参考訳(メタデータ) (2022-10-14T10:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。