論文の概要: The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training
- arxiv url: http://arxiv.org/abs/2603.10444v1
- Date: Wed, 11 Mar 2026 05:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.796296
- Title: The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training
- Title(参考訳): FP4-Quantized LLMトレーニングにおける平均バイアスの呪文と祝福
- Authors: Hengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang,
- Abstract要約: 自然言語で訓練された大規模な言語モデルは、明らかに異方性を示す。
低ビットトレーニングでは、この幾何学は数値的に不安定になる。
この不安定性は、主にコヒーレントなランクワン平均バイアスによって引き起こされることを示す。
- 参考スコア(独自算出の注目度): 24.539689177262193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models trained on natural language exhibit pronounced anisotropy: a small number of directions concentrate disproportionate energy, while the remaining dimensions form a broad semantic tail. In low-bit training regimes, this geometry becomes numerically unstable. Because blockwise quantization scales are determined by extreme elementwise magnitudes, dominant directions stretch the dynamic range, compressing long-tail semantic variation into narrow numerical bins. We show that this instability is primarily driven by a coherent rank-one mean bias, which constitutes the dominant component of spectral anisotropy in LLM representations. This mean component emerges systematically across layers and training stages and accounts for the majority of extreme activation magnitudes, making it the principal driver of dynamic-range inflation under low precision. Crucially, because the dominant instability is rank-one, it can be eliminated through a simple source-level mean-subtraction operation. This bias-centric conditioning recovers most of the stability benefits of SVD-based spectral methods while requiring only reduction operations and standard quantization kernels. Empirical results on FP4 (W4A4G4) training show that mean removal substantially narrows the loss gap to BF16 and restores downstream performance, providing a hardware-efficient path to stable low-bit LLM training.
- Abstract(参考訳): 自然言語で訓練された大きな言語モデルは、明らかに異方性を示し、少数の方向が不均等なエネルギーに集中し、残りの次元は広い意味的な尾を形成する。
低ビットトレーニングでは、この幾何学は数値的に不安定になる。
ブロックワイズ量子化スケールは極端に元素規模で決定されるため、支配方向はダイナミックレンジを延ばし、長い尾のセマンティックなバリエーションを狭い数値ビンに圧縮する。
この不安定性は主に、LLM表現におけるスペクトル異方性の支配的な成分を構成するコヒーレントなランクワン平均バイアスによって引き起こされることを示す。
これは、要素が階層やトレーニング段階にわたって体系的に現れ、極端なアクティベーションのマグニチュードの大半を占め、低精度でダイナミックレンジインフレーションの主要因となることを意味する。
重要なことは、支配的な不安定性はランク1であるため、単純なソースレベルの平均減算演算によって排除することができる。
このバイアス中心条件付けは、削減演算と標準量子化カーネルのみを必要としながら、SVDベースのスペクトル法の安定性の利点を回復させる。
FP4 (W4A4G4) トレーニングの実証結果から, 除去によって損失ギャップがBF16に大幅に狭まり, 下流性能が回復し, 低ビット LLM トレーニングへのハードウェア効率が向上することが示された。
関連論文リスト
- Stabilizing Native Low-Rank LLM Pretraining [24.2079184778031]
低ランク要因化は、トレーニングと推論コストを削減するための有望なルートを提供する。
我々は,Large Language Models (LLMs) を低ランクの分解量でスクラッチからトレーニングできることを実証した。
提案手法は,過度なオーバーヘッドを伴って,安定したエンドツーエンドのファクタライズトレーニングを可能にする。
論文 参考訳(メタデータ) (2026-02-12T21:33:14Z) - Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization [56.5199302532159]
本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。
Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。
Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
論文 参考訳(メタデータ) (2026-02-07T15:50:18Z) - Metis: Training LLMs with FP4 Quantization [28.596611044555306]
メティス(Metis)は、異方性スペクトルを独立量子化のためのより狭い部分分布に分割するフレームワークである。
100Bトークンで訓練されたLLaMA-3 8Bでは、メティスは重量、アクティベーション、勾配のFP4量子化による堅牢なW4A4G4トレーニングを可能にする。
論文 参考訳(メタデータ) (2025-08-30T08:09:08Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications [85.17672240603011]
大規模言語モデルにおける重み行列の非一様低ランク特性について検討する。
WeLore(Weight Low-Rank Projection)は、重み圧縮とメモリ効率の微調整を一体化したものである。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。