Fugu-MT 論文翻訳(概要): Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models?

論文の概要: Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models?

arxiv url: http://arxiv.org/abs/2502.11895v1
Date: Mon, 17 Feb 2025 15:21:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.359746
Title: Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models?
Title（参考訳）: 連続量子化による事前学習: BitNet言語モデルの16ビットから1.58ビットへの事前学習をいつ行うか?
Authors: Jacob Nielsen, Peter Schneider-Kamp, Lukas Galke,
Abstract要約: 大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。近年の研究では、重量パラメータ1本あたり1.58ビットのLSMをスクラッチからトレーニングすることは、モデルの精度を維持することができることが示唆されている。
参考スコア（独自算出の注目度）: 5.67099529296254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) require immense resources for training and inference. Quantization, a technique that reduces the precision of model parameters, offers a promising solution for improving LLM efficiency and sustainability. While post-training quantization methods typically achieve 4-8 bits per parameter, recent research suggests that training LLMs with 1.58 bits per weight parameter from scratch can maintain model accuracy while greatly reducing memory requirements and energy consumption at inference time. Here, we investigate a training strategy for quantization-aware pre-training, where the models are first trained with 16-bit precision and then transition into 1.58-bit quantization-aware training. Our results on 11 downstream tasks show that this 16-to-1.58-bit training strategy is preferable over full 1.58-bit training and leaves models closer to those which have undergone 16-bit training. We further investigate the effects of retaining the optimizer state at the transition point and gradually phasing in quantization strength -- finding that both techniques alleviate the magnitude of loss spikes, but also that these effects can be compensated through further training.
Abstract（参考訳）: 大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。モデルパラメータの精度を下げる手法である量子化は、LCM効率と持続可能性を改善するための有望なソリューションを提供する。ポストトレーニング後の量子化法は一般的にパラメータあたり4～8ビットを達成するが、最近の研究では、スクラッチから重量パラメータあたり1.58ビットのLLMをトレーニングすることで、モデル精度を維持しつつ、メモリ要求と推論時のエネルギー消費を大幅に削減できることが示唆されている。そこで,まず16ビットの精度で学習し,次に1.58ビットの量子化学習に移行する。この16-to-1.58-bitのトレーニング戦略は1.58-bitのトレーニングよりも好適であり、16-bitのトレーニングを受けたタスクに近いモデルを残している。さらに、遷移点における最適化状態を維持し、徐々に量子化強度を低下させる効果について検討し、どちらの手法も損失スパイクの大きさを緩和するが、これらの効果はさらなる訓練によって補償できることを示した。

関連論文リスト

Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
Direct Quantized Training of Language Models with Stochastic Rounding [12.028887152979046]
本稿では,バックプロパゲーション中のストレートスルー推定器に頼ることなく,量子化低精度行列を直接更新する可能性について検討する。 LLaMA構造モデルによる実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。私たちのモデルは3次重みを使って推論も行えます。
論文参考訳（メタデータ） (2024-12-06T05:41:11Z)
Towards Accurate and Efficient Sub-8-Bit Integer Training [24.853958178296587]
量子化は、ニューラルネットワークトレーニングにおける低ビット幅フォーマットを可能にする。最近の手法では、量子化器上での新しいデータフォーマットと追加の事前処理操作が開発されている。高い精度と効率を同時に達成することは、依然として非常に難しい。
論文参考訳（メタデータ） (2024-11-17T03:32:36Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks [2.2300270962881075]
本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
論文参考訳（メタデータ） (2024-06-24T20:55:36Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
Stable and low-precision training for large-scale vision-language models [108.62077651227607]
本稿では,大規模言語ビジョンモデルの学習の高速化と安定化のための新しい手法を提案する。 Int8量子化トレーニングのための線形層であるSwitchBackを導入し,13～25%の高速化を実現した。安定のために、損失スパイクを解析し、二乗勾配が過小評価された後に連続して1～8回発生することを発見した。
論文参考訳（メタデータ） (2023-04-25T17:38:18Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
Shifted and Squeezed 8-bit Floating Point format for Low-Precision Training of Deep Neural Networks [13.929168096016957]
本研究では,8ビット浮動小数点(FP8)数を用いたディープニューラルネットワークのトレーニング手法を提案する。ビット精度の低減により、有効メモリが大きくなり、計算速度が向上する。提案手法は,従来の8ビット精度訓練法と異なり,代表モデルに対して最初から動作可能であることを示す。
論文参考訳（メタデータ） (2020-01-16T06:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。