論文の概要: Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2605.26189v2
- Date: Wed, 27 May 2026 01:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.075635
- Title: Max-Window Scale Estimation for Near-Lossless HiF8 W8A8 Quantization-Aware Training
- Title(参考訳): ニアロスレスHiF8 W8A8量子化学習のための最大ウィンドウスケール推定
- Authors: Yingying Cheng, Jinquan Shi, Li Zhou, Zhiyang He, Zhaoyi Sun, Fan Zhang, Jie Sun,
- Abstract要約: 低ビット浮動小数点フォーマットによる量子化対応トレーニング(QAT)は、効率的なLCMデプロイメントを実現するが、標準的なトレーニングメトリクスには見えない微妙な障害モードを導入する。
遅延スケーリング(DTS)によるOpenPangu-Embedded-1B用HiF8 W8A8 QATの系統的研究について述べる。
我々は、2つの障害モードを同定し、分離する: (i)max saturation、遅延スケール、フォワードパスクリッピングによる知識に敏感な表現を推定する; (ii)カタストロフィックな忘れ、そして、アグレッシブラーニングレートは、量子化とは無関係に事前訓練されたコモンセンス知識を上書きする。
- 参考スコア(独自算出の注目度): 5.976336341654394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization-aware training (QAT) with low-bit floating-point formats enables efficient LLM deployment, yet introduces subtle failure modes invisible to standard training metrics. We present a systematic study of HiF8 W8A8 QAT for OpenPangu-Embedded-1B through the lens of Delayed Tensor Scaling (DTS). Across eight controlled experiments, we identify and disentangle two orthogonal failure modes: (i)amax saturation, where delayed scale estimates silently corrupt knowledge-sensitive representations via forward-pass clipping, and (ii)catastrophic forgetting, where an aggressive learning rate overwrites pretrained commonsense knowledge independently of quantization. Neither is detectable from training loss alone. We address amax saturation with a conservative max-algorithm DTS strategy over a 64-step history window, and mitigate forgetting via a 500-step BF16 warmup followed by QAT at lr=10^{-5}. Both fixes are necessary and sufficient: our final configuration achieves 0.43% MMLU drop, 0.58% HellaSwag drop, and 0.22% ARC-Challenge drop versus a matched BF16 baseline, with a training loss APE of only 0.11% over 10,000 steps.
- Abstract(参考訳): 低ビット浮動小数点フォーマットによる量子化対応トレーニング(QAT)は、効率的なLCMデプロイメントを実現するが、標準的なトレーニングメトリクスには見えない微妙な障害モードを導入する。
遅延テンソルスケーリング(DTS)によるOpenPangu-Embedded-1B用HiF8 W8A8 QATの系統的研究を行った。
8つの制御された実験で、直交する2つの障害モードを識別し、アンタングルする。
(i)前方進路切り抜きによる知識感応表現を無音に評価したアマックス飽和
(II) 量子化とは無関係に、積極的学習率が事前訓練されたコモンセンス知識を上書きする破滅的な忘れ物。
トレーニング損失だけでは検出できない。
我々は,64ステップの履歴ウィンドウ上で,保存的最大アルゴリズムDTS戦略を用いて,amax飽和に対処し,500ステップのBF16ウォームアップとlr=10^{-5}でのQATにより,忘れを緩和する。
最終的な構成は0.43%のMMLUドロップ、0.58%のHellaSwagドロップ、0.22%のARC-Challengeドロップ、マッチしたBF16ベースライン、トレーニング損失APEは10,000ステップ以上0.11%である。
関連論文リスト
- AGoQ: Activation and Gradient Quantization for Memory-Efficient Distributed Training of LLMs [9.35503487039164]
量子化は、大規模言語モデル(LLM)のトレーニングにおけるGPUメモリ要求を減らすための重要な方法である
本稿では,AGoQを導入し,AGoQとAGoQの2つの新しい手法について紹介する。1)タイプとパイプラインステージに基づいて,各レイヤのアクティベーションに適切なビット幅を割り当てて,ほぼ4ビットのアクティベーションストレージを実現する階層型アクティベーション量子化アルゴリズム,2)8ビットのグラデーションストレージと精度保存8ビットのAll-Reduce通信を利用することで,メモリ使用率を低減し,通信時間を短縮する勾配量子化アルゴリズム。
論文 参考訳(メタデータ) (2026-05-01T09:39:03Z) - Facial Emotion Recognition on FER-2013 using an EfficientNetB2-Based Approach [0.0]
現実のシナリオにおける顔画像に基づく人間の感情の検出は、画像品質の低さ、照明の変動、ポーズの変化、背景の気晴らし、クラス間の小さなバリエーション、騒々しいクラウドソースラベル、厳しいクラス不均衡のために難しい作業である。
EfficientNetB2に基づく、軽量で効率的な顔の感情認識パイプラインを用いて、これらの課題に対処する。
このモデルは、87.5%/12.5%の列車価差分を定式化してトレーニングされ、試験精度は68.78%であり、VGG16ベースラインの約10倍のパラメータを達成している。
論文 参考訳(メタデータ) (2026-01-26T07:29:50Z) - Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam [94.00189300897694]
低ビット精度は感度学習率を増幅し、しばしば不安定な勾配ノルムを引き起こす。
本研究では, 勾配正規化とクリッピングを併用したスタブルSPAMを提案する。
実験により,Stable-SPAMは4ビットトレーニングの勾配ノルムを効果的に安定化し,AdamやSPAMよりも優れた性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T11:09:15Z) - Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models? [5.67099529296254]
大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。
近年の研究では、重量パラメータ1本あたり1.58ビットのLSMをスクラッチからトレーニングすることは、モデルの精度を維持することができることが示唆されている。
論文 参考訳(メタデータ) (2025-02-17T15:21:11Z) - Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
論文 参考訳(メタデータ) (2023-04-25T17:38:18Z) - Do We Need Zero Training Loss After Achieving Zero Training Error? [76.44358201918156]
本研究では,遠心分離法(Emphflooding)と呼ばれる直接解法を提案する。
本研究では, 浸水により性能が向上し, 副産物として, 試験損失の2重降下曲線が誘導されることを実験的に示す。
論文 参考訳(メタデータ) (2020-02-20T12:50:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。