論文の概要: Oscillation-Reduced MXFP4 Training for Vision Transformers
- arxiv url: http://arxiv.org/abs/2502.20853v1
- Date: Fri, 28 Feb 2025 08:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:11.362737
- Title: Oscillation-Reduced MXFP4 Training for Vision Transformers
- Title(参考訳): 振動再生MXFP4による視覚変換器の訓練
- Authors: Yuxiang Chen, Haocheng Xi, Jun Zhu, Jianfei Chen,
- Abstract要約: FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。
MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。
より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
- 参考スコア(独自算出の注目度): 19.642508885867375
- License:
- Abstract: Pre-training Transformers in FP4 precision is becoming a promising approach to gain substantial speedup, but it comes with a considerable loss of accuracy. Microscaling (MX) data format provides a fine-grained per-group quantization method to improve the representation ability of the FP4 format and is supported by the next-generation Blackwell GPU architecture. However, training with MXFP4 data format still results in significant degradation and there is a lack of systematic research on the reason. In this work, we propose a novel training method TetraJet for a more accurate FP4 training. We comprehensively evaluate all of the quantizers involved in the training, and identify the weight oscillation problem in the forward pass as the main source of the degradation in MXFP4 training. Therefore, we introduce two novel methods, EMA Quantizer (Q-EMA) and Adaptive Ramping Optimizer (Q-Ramping), to resolve the oscillation problem. Extensive experiments on Vision Transformers demonstrate that TetraJet consistently outperforms the existing 4-bit training methods, and Q-EMA & Q-Ramping can provide additional enhancement by effectively reducing oscillation. We decreased the accuracy degradation by more than $50\%$ compared to the baseline, and can even achieve competitive performance compared to full precision training. The codes are available at https://github.com/thu-ml/TetraJet-MXFP4Training
- Abstract(参考訳): FP4の精度で事前学習するトランスフォーマーは、相当なスピードアップを実現するための有望なアプローチになりつつあるが、精度は大幅に低下している。
マイクロスケーリング(MX)データフォーマットは、FP4フォーマットの表現能力を改善するためにグループごとの微細な量子化法を提供し、次世代のBlackwell GPUアーキテクチャでサポートされている。
しかし、MXFP4データフォーマットでのトレーニングは依然として大幅に劣化し、その理由に関する体系的な研究が欠如している。
本研究では,より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
本研究は, MXFP4トレーニングにおける劣化の原因として, トレーニングに関わる全ての量化器を包括的に評価し, フォワードパスにおける重量振動問題を同定する。
そこで本研究では, 振動問題を解決するために, EMA Quantizer (Q-EMA) と Adaptive Ramping Optimizer (Q-Ramping) の2つの新しい手法を提案する。
ビジョントランスフォーマーの広範囲な実験により、TetraJetは既存の4ビットトレーニング方法より一貫して優れており、Q-EMA & Q-Rampingは発振を効果的に低減し、さらなる強化を提供する。
我々は,ベースラインと比較して50\%以上の精度劣化を低減し,完全精度トレーニングと比較して競争性能も達成できることを示した。
コードはhttps://github.com/thu-ml/TetraJet-MXFP4Trainingで公開されている。
関連論文リスト
- Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Training Transformers with 4-bit Integers [21.861232105539933]
4ビットへのアクティベーション、ウェイト、勾配の量子化は、ニューラルネットワークのトレーニングを加速することを約束している。
既存の4ビットのトレーニング方法は、現代のハードウェアではサポートされていないカスタムの数値形式を必要とする。
本研究では,INT4演算で実装されたすべての行列乗算を用いた変圧器の訓練手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T02:45:01Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。