論文の概要: ECO: Quantized Training without Full-Precision Master Weights
- arxiv url: http://arxiv.org/abs/2601.22101v1
- Date: Thu, 29 Jan 2026 18:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.07992
- Title: ECO: Quantized Training without Full-Precision Master Weights
- Title(参考訳): ECO:完全精密マスターウェイトなしの量子トレーニング
- Authors: Mahdi Nikdan, Amir Zandieh, Dan Alistarh, Vahab Mirrokni,
- Abstract要約: Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
- 参考スコア(独自算出の注目度): 58.97082407934466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has significantly improved the compute and memory efficiency of Large Language Model (LLM) training. However, existing approaches still rely on accumulating their updates in high-precision: concretely, gradient updates must be applied to a high-precision weight buffer, known as $\textit{master weights}$. This buffer introduces substantial memory overhead, particularly for Sparse Mixture of Experts (SMoE) models, where model parameters and optimizer states dominate memory usage. To address this, we introduce the Error-Compensating Optimizer (ECO), which eliminates master weights by applying updates directly to quantized parameters. ECO quantizes weights after each step and carefully injects the resulting quantization error into the optimizer momentum, forming an error-feedback loop with no additional memory. We prove that, under standard assumptions and a decaying learning rate, ECO converges to a constant-radius neighborhood of the optimum, while naive master-weight removal can incur an error that is inversely proportional to the learning rate. We show empirical results for pretraining small Transformers (30-800M), a Gemma-3 1B model, and a 2.1B parameter Sparse MoE model with FP8 quantization, and fine-tuning DeepSeek-MoE-16B in INT4 precision. Throughout, ECO matches baselines with master weights up to near-lossless accuracy, significantly shifting the static memory vs validation loss Pareto frontier.
- Abstract(参考訳): 量子化は、LLM(Large Language Model)トレーニングの計算とメモリ効率を大幅に改善した。
具体的に言うと、勾配の更新は、$\textit{master weights}$として知られる高精度の重みバッファに適用する必要がある。
このバッファは、特にSmoE(Sparse Mixture of Experts)モデルにおいて、大きなメモリオーバーヘッドをもたらし、モデルパラメータとオプティマイザ状態がメモリ使用量を支配している。
これを解決するために、量子化パラメータに直接更新を適用することにより、マスターウェイトを排除するError-Compensating Optimizer (ECO)を導入する。
ECOは各ステップの後に重みを定量化し、結果の量子化誤差をオプティマイザ運動量に慎重に注入し、追加メモリを持たないエラーフィードバックループを形成する。
標準的な仮定と学習速度の低下の下では、ECOは最適値の定数半径近傍に収束する一方、単純マスターウェイト除去は学習率に逆比例する誤差を生じさせる。
本研究では,FP8量子化による小形トランスフォーマー(30-800M),Gemma-3 1Bモデル,2.1BパラメータスパースMoEモデル,INT4精度のDeepSeek-MoE-16Bに関する実験結果を示す。
全体として、ECOはベースラインとマスターウェイトをほぼロスレスの精度で一致させ、静的メモリとバリデーション損失のParetoフロンティアを著しくシフトさせる。
関連論文リスト
- A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - Direct Quantized Training of Language Models with Stochastic Rounding [8.442358264368693]
様々な大きさのLLaMA構造化モデルの実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。
我々のモデルは、FP32から低メモリ環境に移行する際の性能劣化を最小限に抑えながら、精度のスケーリングとメモリ削減に頑健なままです。
論文 参考訳(メタデータ) (2024-12-06T05:41:11Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。