論文の概要: Pretraining large language models with MXFP4 on Native FP4 Hardware
- arxiv url: http://arxiv.org/abs/2605.09825v2
- Date: Wed, 13 May 2026 04:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.841436
- Title: Pretraining large language models with MXFP4 on Native FP4 Hardware
- Title(参考訳): MXFP4によるFP4ネイティブハードウェア上の大規模言語モデルの事前学習
- Authors: Musa Cim, Poovaiah Palangappa, Miro Hodak, Ravi Dwivedula, Meena Arunachalam, Mahmut Taylan Kandemir,
- Abstract要約: 我々は,前向きのアクティベーションやアクティベーション勾配が安定している場合でも,大規模言語モデルのフルパイプFP4トレーニングがしばしば分岐する理由を考察する。
その結果,FP4トレーニングの不安定性は,過度な直感性ではなく,敏感な勾配経路に沿った構造的マイクロスケーリング誤差によって引き起こされることがわかった。
- 参考スコア(独自算出の注目度): 6.139566055770847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why does full-pipeline FP4 training of large language models often diverge, even when forward activations and activation gradients remain stable? We address this question through a controlled study of MXFP4 quantization in transformer training, progressively enabling FP4 across forward propagation (Fprop), activation gradients (Dgrad), and weight gradients (Wgrad) while holding all other factors fixed. In full pretraining of Llama 3.1-8B on the C4 dataset, we observe that quantizing Wgrad is the primary driver of convergence degradation, whereas FP4 in Fprop and Dgrad alone introduces only modest additional token requirements. To interpret this behavior, we evaluate both structured and stochastic interventions under a controlled experimental setting. We find that stochastic rounding and randomized Hadamard rotations fail to stabilize training once Wgrad is quantized, whereas deterministic Hadamard rotations consistently restore stable optimization. These results suggest that FP4 training instability is driven by structured micro-scaling errors along sensitive gradient paths, rather than by insufficient stochasticity. We run experiments with native MXFP4 support on AMD Instinct MI355X GPUs, enabling controlled investigation of these effects without reliance on software emulation.
- Abstract(参考訳): フォワードアクティベーションとアクティベーション勾配が安定している場合でも、大規模言語モデルのフルパイプFP4トレーニングはなぜ分岐するのか?
本研究は, トランスフォーマートレーニングにおけるMXFP4量子化の制御研究を通じて, 前方伝播(Fprop), アクティベーション勾配(Dgrad), ウェイト勾配(Wgrad)でFP4を段階的に有効にし, その他のすべての要因を固定しながらこの問題に対処する。
C4データセット上でのLlama 3.1-8Bの完全な事前トレーニングでは、Wgradの定量化が収束分解の第一の要因であるのに対し、FpropとDgradのFP4はわずかに追加のトークン要件を導入する。
この振る舞いを解釈するために,制御された実験環境下での構造的介入と確率的介入の両方を評価する。
確率的ラウンドリングとランダム化されたアダマール回転は、Wgradが量子化されるとトレーニングを安定させることができず、一方決定論的アダマール回転は一貫して安定な最適化を安定させる。
以上の結果から,FP4トレーニング不安定性は,不整合性ではなく,過敏な勾配経路に沿った構造的マイクロスケーリング誤差によって引き起こされることが示唆された。
我々はAMD Instinct MI355X GPU上でMXFP4のネイティブサポートによる実験を行い、ソフトウェアエミュレーションに頼らずにこれらの効果の制御を可能にする。
関連論文リスト
- Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。
ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文 参考訳(メタデータ) (2025-05-25T12:14:25Z) - Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文 参考訳(メタデータ) (2025-02-17T05:33:11Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。