論文の概要: Towards Fully FP8 GEMM LLM Training at Scale
- arxiv url: http://arxiv.org/abs/2505.20524v1
- Date: Mon, 26 May 2025 21:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.295788
- Title: Towards Fully FP8 GEMM LLM Training at Scale
- Title(参考訳): 大規模FP8 GEMM LLMトレーニングに向けて
- Authors: Alejandro Hernández-Cano, Dhia Garbaya, Imanol Schlag, Martin Jaggi,
- Abstract要約: 既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
- 参考スコア(独自算出の注目度): 77.39425361120466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the significant potential of FP8 data formats for large language model (LLM) pre-training, their adoption has been limited due to challenges in maintaining stability at scale. Existing approaches often rely on suboptimal fine-grained FP8 kernels or fall back to higher-precision matrix multiplications (GEMMs) in sensitive components, such as attention projections, compromising potential throughput gains. We introduce a new class of LLM architectures that, for the first time, support FP8 computation for all GEMMs within transformer blocks during both forward and backward passes. This enables unprecedented throughput gains, particularly at scale, while matching the downstream performance of standard BF16 training. Our architecture design reduces large outlier activations, promoting stable long-term FP8 training. In addition, we identify key metrics to monitor low-precision training and predict potential future divergences.
- Abstract(参考訳): 大規模言語モデル(LLM)事前トレーニングのためのFP8データフォーマットの潜在的な可能性にもかかわらず、その採用は大規模な安定性を維持する上での課題のために制限されている。
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、アテンション・プロジェクションや潜在的なスループット向上の妥協など、敏感なコンポーネントにおけるより高精度な行列乗算(GEMM)に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
アーキテクチャ設計は、大規模な外部アクティベーションを低減し、安定した長期FP8トレーニングを促進する。
さらに、低精度のトレーニングを監視し、将来的な分岐を予測するための重要な指標を同定する。
関連論文リスト
- An Inquiry into Datacenter TCO for LLM Inference with FP8 [7.910301381209274]
大規模言語モデル(LLM)の計算特性と制約をTCOの観点から解析する。
多様な運用要件に応じて,CSPがAIアクセラレータを比較選択できる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T05:26:22Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。
これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。
このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文 参考訳(メタデータ) (2024-11-10T15:19:42Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。
しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。
自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:42:23Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。