論文の概要: When Less is More: 8-bit Quantization Improves Continual Learning in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.18934v1
- Date: Mon, 22 Dec 2025 00:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.563285
- Title: When Less is More: 8-bit Quantization Improves Continual Learning in Large Language Models
- Title(参考訳): 8ビット量子化は大規模言語モデルにおける継続的な学習を改善する
- Authors: Michael S. Zhang, Rishi A. Ruia, Arnav Kewalram, Saathvik Dharmapuram, Utkarsh Sharma, Kevin Zhu,
- Abstract要約: 量子化精度 (FP16, INT8, INT4) と大言語モデルにおけるリプレイバッファ戦略の相互作用について検討する。
量子化モデルはFP16を8~15%上回り、最終タスクの前方精度が向上する。
量子化によるノイズは暗黙の正則化として作用し、高精度モデルに悩まされる新しいタスク勾配への過度な適合を防止していると仮定する。
- 参考スコア(独自算出の注目度): 3.395259076232696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting poses a fundamental challenge in continual learning, particularly when models are quantized for deployment efficiency. We systematically investigate the interplay between quantization precision (FP16, INT8, INT4) and replay buffer strategies in large language models, revealing unexpected dynamics. While FP16 achieves superior initial task performance (74.44% on NLU), we observe a striking inversion on subsequent tasks: quantized models outperform FP16 by 8-15% on final task forward accuracy, with INT4 achieving nearly double FP16's performance on Code generation (40% vs 20%). Critically, even minimal replay buffers (0.1%) dramatically improve retention - increasing NLU retention after Math training from 45% to 65% across all precision levels - with INT8 consistently achieving the optimal balance between learning plasticity and knowledge retention. We hypothesize that quantization-induced noise acts as implicit regularization, preventing the overfitting to new task gradients that plagues high-precision models. These findings challenge the conventional wisdom that higher precision is always preferable, suggesting instead that INT8 quantization offers both computational efficiency and superior continual learning dynamics. Our results provide practical guidelines for deploying compressed models in continual learning scenarios: small replay buffers (1-2%) suffice for NLU tasks, while Math and Code benefit from moderate buffers (5-10%), with quantized models requiring less replay than FP16 to achieve comparable retention. Code is available at https://github.com/Festyve/LessIsMore.
- Abstract(参考訳): 破滅的な忘れは、特にモデルがデプロイメント効率のために定量化されている場合、継続的学習において根本的な課題となる。
本研究では,大規模言語モデルにおける量子化精度 (FP16, INT8, INT4) とリプレイバッファ戦略の相互作用を系統的に検討し,予期しないダイナミクスを明らかにする。
量子化モデルはFP16を8-15%上回り、INT4はコード生成におけるFP16の性能(40%対20%)をほぼ2倍に向上した。
批判的に、最小限のリプレイバッファ(0.1%)でさえ、保持を劇的に改善する — Mathトレーニング後のNLU保持を、すべての精度レベルで45%から65%に向上する — INT8は、学習の可塑性と知識保持の最適なバランスを一貫して達成している。
量子化によるノイズは暗黙の正則化として作用し、高精度なモデルに悩まされる新しいタスク勾配への過度な適合を防止していると仮定する。
これらの知見は、高い精度が常に好ましいという従来の知恵に挑戦し、代わりにINT8量子化は計算効率と優れた連続学習力学の両方を提供することを示唆している。
この結果から,圧縮モデルの連続学習シナリオへの展開に関する実践的ガイドラインが得られた。NLUタスクに対する小さなリプレイバッファ (1-2%) と,FP16よりも少ないリプレイを必要とする量子化モデルによる中間バッファ (5-10%) の恩恵に対して,MathとCodeは同等のリプレイバッファ (1-2%) を満足する。
コードはhttps://github.com/Festyve/LessIsMoreで入手できる。
関連論文リスト
- Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。
本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。
以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T17:53:17Z) - Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。
本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文 参考訳(メタデータ) (2025-05-20T17:26:12Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。