論文の概要: Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models?
- arxiv url: http://arxiv.org/abs/2502.11895v1
- Date: Mon, 17 Feb 2025 15:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:31.448784
- Title: Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models?
- Title(参考訳): 連続量子化による事前学習: BitNet言語モデルの16ビットから1.58ビットへの事前学習をいつ行うか?
- Authors: Jacob Nielsen, Peter Schneider-Kamp, Lukas Galke,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。
近年の研究では、重量パラメータ1本あたり1.58ビットのLSMをスクラッチからトレーニングすることは、モデルの精度を維持することができることが示唆されている。
- 参考スコア(独自算出の注目度): 5.67099529296254
- License:
- Abstract: Large language models (LLMs) require immense resources for training and inference. Quantization, a technique that reduces the precision of model parameters, offers a promising solution for improving LLM efficiency and sustainability. While post-training quantization methods typically achieve 4-8 bits per parameter, recent research suggests that training LLMs with 1.58 bits per weight parameter from scratch can maintain model accuracy while greatly reducing memory requirements and energy consumption at inference time. Here, we investigate a training strategy for quantization-aware pre-training, where the models are first trained with 16-bit precision and then transition into 1.58-bit quantization-aware training. Our results on 11 downstream tasks show that this 16-to-1.58-bit training strategy is preferable over full 1.58-bit training and leaves models closer to those which have undergone 16-bit training. We further investigate the effects of retaining the optimizer state at the transition point and gradually phasing in quantization strength -- finding that both techniques alleviate the magnitude of loss spikes, but also that these effects can be compensated through further training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。
モデルパラメータの精度を下げる手法である量子化は、LCM効率と持続可能性を改善するための有望なソリューションを提供する。
ポストトレーニング後の量子化法は一般的にパラメータあたり4~8ビットを達成するが、最近の研究では、スクラッチから重量パラメータあたり1.58ビットのLLMをトレーニングすることで、モデル精度を維持しつつ、メモリ要求と推論時のエネルギー消費を大幅に削減できることが示唆されている。
そこで,まず16ビットの精度で学習し,次に1.58ビットの量子化学習に移行する。
この16-to-1.58-bitのトレーニング戦略は1.58-bitのトレーニングよりも好適であり、16-bitのトレーニングを受けたタスクに近いモデルを残している。
さらに、遷移点における最適化状態を維持し、徐々に量子化強度を低下させる効果について検討し、どちらの手法も損失スパイクの大きさを緩和するが、これらの効果はさらなる訓練によって補償できることを示した。
関連論文リスト
- Towards Accurate and Efficient Sub-8-Bit Integer Training [24.853958178296587]
量子化は、ニューラルネットワークトレーニングにおける低ビット幅フォーマットを可能にする。
最近の手法では、量子化器上での新しいデータフォーマットと追加の事前処理操作が開発されている。
高い精度と効率を同時に達成することは、依然として非常に難しい。
論文 参考訳(メタデータ) (2024-11-17T03:32:36Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。
COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。
COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文 参考訳(メタデータ) (2024-10-25T05:59:30Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks [2.2300270962881075]
本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。
我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
論文 参考訳(メタデータ) (2024-06-24T20:55:36Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Continuous 16-bit Training: Accelerating 32-bit Pre-Trained Neural
Networks [0.0]
本研究では,既存の32ビットモデルのトレーニングを16ビット精度で継続する手法を提案する。
進行中のトレーニングに16ビットの精度を採用することで、メモリ要件と計算負荷を大幅に削減できる。
実験により,本手法は,元の32ビットトレーニングによって設定された高精度な精度を維持しつつ,学習速度を向上することを示す。
論文 参考訳(メタデータ) (2023-11-30T14:28:25Z) - Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。
Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13~25%の高速化を実現した。
安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1~8回発生することを発見した。
論文 参考訳(メタデータ) (2023-04-25T17:38:18Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Shifted and Squeezed 8-bit Floating Point format for Low-Precision
Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。
ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。
提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文 参考訳(メタデータ) (2020-01-16T06:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。