論文の概要: TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control
- arxiv url: http://arxiv.org/abs/2510.27527v1
- Date: Fri, 31 Oct 2025 14:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.140239
- Title: TetraJet-v2: Accurate NVFP4 Training for Large Language Models with Oscillation Suppression and Outlier Control
- Title(参考訳): TetraJet-v2:Oscillation SuppressionとOutlier Controlを備えた大規模言語モデルの高精度NVFP4トレーニング
- Authors: Yuxiang Chen, Xiaoming Xu, Pengle Zhang, Michael Beyer, Martin Rapp, Jun Zhu, Jianfei Chen,
- Abstract要約: 大規模言語モデル(LLM)トレーニングは違法に高価であり、低精度完全量子化トレーニング(FQT)への関心を喚起している。
我々は,NVFP4をすべての線形層における活性化,重み,勾配に利用した,エンドツーエンドの4ビットFQT法であるTetraJet-v2を紹介する。
- 参考スコア(独自算出の注目度): 24.897675627585798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) training is prohibitively expensive, driving interest in low-precision fully-quantized training (FQT). While novel 4-bit formats like NVFP4 offer substantial efficiency gains, achieving near-lossless training at such low precision remains challenging. We introduce TetraJet-v2, an end-to-end 4-bit FQT method that leverages NVFP4 for activations, weights, and gradients in all linear layers. We identify two critical issues hindering low-precision LLM training: weight oscillation and outliers. To address these, we propose: 1) an unbiased double-block quantization method for NVFP4 linear layers, 2) OsciReset, an algorithm to suppress weight oscillation, and 3) OutControl, an algorithm to retain outlier accuracy. TetraJet-v2 consistently outperforms prior FP4 training methods on pre-training LLMs across varying model sizes up to 370M and data sizes up to 200B tokens, reducing the performance gap to full-precision training by an average of 51.3%.
- Abstract(参考訳): 大規模言語モデル(LLMs)のトレーニングは違法に高価であり、低精度完全量子化トレーニング(FQT)への関心を喚起している。
NVFP4のような新しい4ビットフォーマットは大幅な効率向上をもたらすが、そのような低い精度でほぼ無作為なトレーニングを実現することは依然として困難である。
我々は,NVFP4をすべての線形層における活性化,重み,勾配に利用した,エンドツーエンドの4ビットFQT法であるTetraJet-v2を紹介する。
低精度LDMトレーニングを妨げる2つの重要な問題、すなわち重量振動とアウトリーチを同定する。
これらの問題に対処するため、我々は次のように提案する。
1)NVFP4線形層に対する非バイアス二重ブロック量子化法
2)OsciReset、重量振動抑制アルゴリズム、及び
3)OutControlは、出力精度を維持するアルゴリズムである。
TetraJet-v2は、最大370Mまでのモデルサイズと最大200BまでのデータサイズにわたるLLMの事前トレーニングにおけるFP4トレーニング手法を一貫して上回り、パフォーマンスのギャップを51.3%削減した。
関連論文リスト
- Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文 参考訳(メタデータ) (2025-05-20T17:55:50Z) - Oscillation-Reduced MXFP4 Training for Vision Transformers [19.642508885867375]
FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。
MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。
より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
論文 参考訳(メタデータ) (2025-02-28T08:51:55Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。