論文の概要: Dissecting Outlier Dynamics in LLM NVFP4 Pretraining
- arxiv url: http://arxiv.org/abs/2602.02047v1
- Date: Mon, 02 Feb 2026 12:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.150363
- Title: Dissecting Outlier Dynamics in LLM NVFP4 Pretraining
- Title(参考訳): LLM NVFP4プレトレーニングにおける外周運動の解離
- Authors: Peijie Dong, Ruibo Fan, Yuechen Tao, Di Mou, Wenhu Hu, Zhenheng Tang, Yinghao Yu, Jiamang Wang, Wenbo Su, Guodong Yang, Liping Zhang, Xiaowen Chu, Baochun Li, Bo Li,
- Abstract要約: 本研究は,NVFP4プレトレーニング中におけるアーキテクチャ内外層力学の経時的解析を行う。
我々は、Softmax Attention (SA) と比較して、Linear Attention (LA) はテンソルあたりの重みを減少させるが、ブロック量子化の下ではブロックレベルのスパイクが持続することを示した。
次に,NVFP4のトレーニングレシピであるCHONを開発し,QK後の操作保護と統合した。
- 参考スコア(独自算出の注目度): 46.10969678564592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models using 4-bit arithmetic enhances throughput and memory efficiency. Yet, the limited dynamic range of FP4 increases sensitivity to outliers. While NVFP4 mitigates quantization error via hierarchical microscaling, a persistent loss gap remains compared to BF16. This study conducts a longitudinal analysis of outlier dynamics across architecture during NVFP4 pretraining, focusing on where they localize, why they occur, and how they evolve temporally. We find that, compared with Softmax Attention (SA), Linear Attention (LA) reduces per-tensor heavy tails but still exhibits persistent block-level spikes under block quantization. Our analysis attributes outliers to specific architectural components: Softmax in SA, gating in LA, and SwiGLU in FFN, with "post-QK" operations exhibiting higher sensitivity to quantization. Notably, outliers evolve from transient spikes early in training to a small set of persistent hot channels (i.e., channels with persistently large magnitudes) in later stages. Based on these findings, we introduce Hot-Channel Patch (HCP), an online compensation mechanism that identifies hot channels and reinjects residuals using hardware-efficient kernels. We then develop CHON, an NVFP4 training recipe integrating HCP with post-QK operation protection. On GLA-1.3B model trained for 60B tokens, CHON reduces the loss gap to BF16 from 0.94% to 0.58% while maintaining downstream accuracy.
- Abstract(参考訳): 4ビット演算を用いた大規模言語モデルのトレーニングにより、スループットとメモリ効率が向上する。
しかし、FP4のダイナミックレンジの制限は、外れ値に対する感受性を高める。
NVFP4は階層的マイクロスケーリングによる量子化誤差を緩和するが、持続的な損失差はBF16と比較される。
本研究は,NVFP4プレトレーニング中の建築における外層力学の経時的解析を行い,その位置,なぜ発生したのか,時間的にどのように進化するかに着目した。
我々は、Softmax Attention (SA) と比較して、Linear Attention (LA) はテンソルあたりの重みを減少させるが、ブロック量子化の下では持続的なブロックレベルのスパイクを示す。
我々の分析では、SAのSoftmax、LAのGating、FFNのSwiGLU、量子化に対する感度の高い"ポストQK"操作など、特定のアーキテクチャコンポーネントのアウトレージを特徴としている。
特筆すべきは、トレーニングの初期段階の急激なスパイクから、後期段階における少数の持続的な熱チャネル(すなわち、持続的な大きさのチャネル)へと進化することである。
これらの知見に基づき、ハードウェア効率のよいカーネルを用いて、ホットチャネルを特定し、残留物をリジェクトするオンライン補償機構であるHot-Channel Patch (HCP)を導入する。
次に,HCPとQK後操作保護を統合したNVFP4トレーニングレシピであるCHONを開発した。
60Bトークンでトレーニングされた GLA-1.3B モデルでは、CHON は損失ギャップを 0.94% から 0.58% に減らし、下流の精度を維持している。
関連論文リスト
- Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling [13.357423392911036]
NVFP4量子化アルゴリズムを改良したFour Over Six (4/6)を導入する。
いくつかのブロックに対して、より小さなFP4値へのスケーリングは、表現可能な値の分布をより均一にする。
また,4/6は,多くの学習後量子化手法に容易に組み込むことができ,一般に下流の精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-12-01T18:59:45Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration [1.6127639408026697]
FireQはPTQフレームワークとINT4-FP8行列乗算カーネルである。
FireQは、線形層重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化する。
プリフィル相の3段配管は、プリフィル相における第1トーケンを減少させる。
論文 参考訳(メタデータ) (2025-05-27T07:58:35Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。