論文の概要: Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics
- arxiv url: http://arxiv.org/abs/2505.00347v2
- Date: Mon, 09 Jun 2025 13:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.04127
- Title: Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics
- Title(参考訳): 低ビットオプティマイザの限界を押し上げる:EMAダイナミクスに着目して
- Authors: Cong Xu, Wenbin Liang, Mo Yu, Anan Liu, Ke-Yue Zhang, Shunli Wang, Lizhuang Ma, Jianyong Wang, Jun Wang, Wei Zhang,
- Abstract要約: ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
- 参考スコア(独自算出の注目度): 64.62231094774211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid scaling of models has led to prohibitively high training and fine-tuning costs. A major factor accounting for memory consumption is the widespread use of stateful optimizers (e.g., Adam), which maintain auxiliary information of even 2x the model size in order to achieve optimal convergence. We therefore present SOLO in this work to spawn a novel type of optimizer that requires an extremely light memory footprint. While previous efforts have achieved certain success in 8-bit or 4-bit cases, SOLO enables Adam-style optimizers to maintain quantized states with precision as low as 3 bits, or even 2 bits. This immense progress is due to the identification and resolution of two key challenges: the signal swamping problem in unsigned quantization that results in unchanged state dynamics, and the increased gradient variance in signed quantization that leads to incorrect descent directions. The theoretical analysis suggests a tailored logarithmic quantization for the former and a precision-specific momentum hyperparameter for the latter. SOLO can thus be seamlessly applied to Adam-style optimizers, leading to substantial memory savings with minimal accuracy loss.
- Abstract(参考訳): モデルの急激なスケーリングは、厳格に高いトレーニングと微調整コストにつながった。
メモリ消費を考慮に入れている主な要因はステートフルなオプティマイザ(例えばAdam)の普及である。
そこで本研究では,メモリフットプリントが極めて少ない新しいタイプのオプティマイザを創出するためにSOLOを提案する。
以前の試みは8ビットまたは4ビットのケースで一定の成功を収めたが、SOLOはAdamスタイルのオプティマイザが3ビットまたは2ビットの精度で量子化された状態を維持することを可能にする。
この大きな進歩は、2つの重要な課題の特定と解決である: 符号なし量子化における信号湿潤問題(状態ダイナミクスが変化しない)と符号付き量子化における勾配のばらつき(誤った降下方向につながる)である。
この理論解析は、前者の対数量子化と後者の精度特異的運動量ハイパーパラメータの調整を示唆している。
したがって、SOLOはAdamスタイルのオプティマイザにシームレスに適用でき、精度の低下を最小限に抑えることができる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。
本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文 参考訳(メタデータ) (2025-05-20T17:26:12Z) - Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs [0.8999666725996975]
混合精度(MP)は、ネットワーク層間での数値的精度の変化によってトレードオフを緩和する。
本研究では,PTQ(Post-Training Quantization)内の最適なMP構成を自動的に選択することに焦点を当てた。
論文 参考訳(メタデータ) (2025-05-19T12:51:02Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。
SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。
複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-10T18:09:53Z) - ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - Oscillations Make Neural Networks Robust to Quantization [0.16385815610837165]
量子化アウェアトレーニング(QAT)における振動は,STE(Straight-Through Estimator)によって引き起こされる望ましくない人工物であることを示す。
量子化を改善するために振動を誘導する新しい正則化法を提案する。
論文 参考訳(メタデータ) (2025-02-01T16:39:58Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。