論文の概要: Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation
- arxiv url: http://arxiv.org/abs/2601.22813v1
- Date: Fri, 30 Jan 2026 10:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.389904
- Title: Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation
- Title(参考訳): Quartet II: Unbiased Gradient Estimationの改良によるNVFP4の正確なLCM事前評価
- Authors: Andrei Panferov, Erik Schultheis, Soroush Tabesh, Dan Alistarh,
- Abstract要約: 我々は,NVFP4における量子化学習のための技術の現状を,マイクロスケールフォーマットのための新しい非バイアス量子化ルーチンによって改善する。
解析学的に、Quartet II はすべての行列乗法において一貫したより良い勾配推定を達成できることを示す。
- 参考スコア(独自算出の注目度): 40.140261007984215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The NVFP4 lower-precision format, supported in hardware by NVIDIA Blackwell GPUs, promises to allow, for the first time, end-to-end fully-quantized pre-training of massive models such as LLMs. Yet, existing quantized training methods still sacrifice some of the representation capacity of this format in favor of more accurate unbiased quantized gradient estimation by stochastic rounding (SR), losing noticeable accuracy relative to standard FP16 and FP8 training. In this paper, improve the state of the art for quantized training in NVFP4 via a novel unbiased quantization routine for micro-scaled formats, called MS-EDEN, that has more than 2x lower quantization error than SR. We integrate it into a novel fully-NVFP4 quantization scheme for linear layers, called Quartet II. We show analytically that Quartet II achieves consistently better gradient estimation across all major matrix multiplications, both on the forward and on the backward passes. In addition, our proposal synergizes well with recent training improvements aimed specifically at NVFP4. We further validate Quartet II on end-to-end LLM training with up to 1.9B parameters on 38B tokens. We provide kernels for execution on NVIDIA Blackwell GPUs with up to 4.2x speedup over BF16. Our code is available at https://github.com/IST-DASLab/Quartet-II .
- Abstract(参考訳): NVIDIA Blackwell GPUによってハードウェアでサポートされているNVFP4の低精度フォーマットは、LLMのような大規模モデルのエンドツーエンドの完全量子化事前トレーニングを初めて可能にすることを約束している。
しかし、既存の量子化学習法では、従来のFP16とFP8のトレーニングと比較して、より正確な確率的ラウンドリング(SR)による偏りのない量子化勾配推定を優先して、このフォーマットの表現能力の一部を犠牲にしている。
本稿では,NVFP4における量子化学習の最先端を,SRよりも2倍以上低い2倍の量子化誤差を持つMS-EDENと呼ばれる,マイクロスケールフォーマットのための新しい非バイアス量子化ルーチンにより改善する。
線形層に対する完全NVFP4量子化スキームであるQuartet IIに統合する。
解析的に、Quartet II は、前方および後方の両方で、すべての行列乗法において、一貫したより良い勾配推定を達成できることを示す。
さらに,本提案は,NVFP4に特化した最近のトレーニング改善と相乗効果がある。
さらに,38Bトークン上の最大1.9Bパラメータを用いて,エンドツーエンドLLMトレーニングにおけるQuartet IIの有効性を検証した。
BF16上で最大4.2倍のスピードアップでNVIDIA Blackwell GPU上で実行するためのカーネルを提供します。
私たちのコードはhttps://github.com/IST-DASLab/Quartet-II で利用可能です。
関連論文リスト
- Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。