論文の概要: FP4 All the Way: Fully Quantized Training of LLMs
- arxiv url: http://arxiv.org/abs/2505.19115v1
- Date: Sun, 25 May 2025 12:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.916494
- Title: FP4 All the Way: Fully Quantized Training of LLMs
- Title(参考訳): FP4:LLMの完全量子化トレーニング
- Authors: Brian Chmiel, Maxim Fishman, Ron Banner, Daniel Soudry,
- Abstract要約: 主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
- 参考スコア(独自算出の注目度): 26.195547788434908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate, for the first time, fully quantized training (FQT) of large language models (LLMs) using predominantly 4-bit floating-point (FP4) precision for weights, activations, and gradients on datasets up to 200 billion tokens. We extensively investigate key design choices for FP4, including block sizes, scaling formats, and rounding methods. Our analysis shows that the NVFP4 format, where each block of 16 FP4 values (E2M1) shares a scale represented in E4M3, provides optimal results. We use stochastic rounding for backward and update passes and round-to-nearest for the forward pass to enhance stability. Additionally, we identify a theoretical and empirical threshold for effective quantized training: when the gradient norm falls below approximately $\sqrt{3}$ times the quantization noise, quantized training becomes less effective. Leveraging these insights, we successfully train a 7-billion-parameter model on 256 Intel Gaudi2 accelerators. The resulting FP4-trained model achieves downstream task performance comparable to a standard BF16 baseline, confirming that FP4 training is a practical and highly efficient approach for large-scale LLM training. A reference implementation is supplied in https://github.com/Anonymous1252022/fp4-all-the-way .
- Abstract(参考訳): 4ビット浮動小数点(FP4)の精度を最大200億個のトークンの重み、アクティベーション、勾配に用いた大規模言語モデル(LLM)の完全量子化トレーニング(FQT)を初めて実証した。
ブロックサイズ,スケーリングフォーマット,ラウンドリングメソッドなど,FP4の主要な設計選択を幅広く検討する。
解析の結果,16個のFP4値(E2M1)の各ブロックがE4M3で表されるスケールを共有するNVFP4形式が最適であることがわかった。
後方進入には確率的ラウンドリング,前方進入にはラウンド・トゥ・アレストを用い,安定性を向上した。
勾配ノルムが約$\sqrt{3}$以下になると、量子化学習はより効果的になる。
これらの知見を活用して、256のIntel Gaudi2アクセラレータ上で7ビリオンパラメータモデルをトレーニングすることに成功しました。
結果として得られたFP4トレーニングモデルは、標準的なBF16ベースラインに匹敵するダウンストリームタスク性能を実現し、FP4トレーニングが大規模LLMトレーニングの実用的で高効率なアプローチであることを確認した。
リファレンス実装はhttps://github.com/Anonymous1252022/fp4-all-the-way で提供される。
関連論文リスト
- Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
低精度算術でのトレーニングモデルは、計算スループットとエネルギー効率の両方を改善することで解決策を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、非常に低精度な操作、特にFP4のバリエーションを促進し、実質的な効率向上を約束している。
提案手法は,FP4ベーストレーニングが標準精度とFP8トレーニングの代替となることを示す。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。