論文の概要: Fine-tuning Quantized Neural Networks with Zeroth-order Optimization
- arxiv url: http://arxiv.org/abs/2505.13430v1
- Date: Mon, 19 May 2025 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.796747
- Title: Fine-tuning Quantized Neural Networks with Zeroth-order Optimization
- Title(参考訳): ゼロ階最適化を用いた微調整量子ニューラルネットワーク
- Authors: Sifeng Shang, Jiayi Zhou, Chenyu Lin, Minxian Li, Kaiyang Zhou,
- Abstract要約: 量子化ゼロ階最適化(Quantized Zeroth-order Optimization, QZO)は、連続量子化スケールを推定するために摂動させ、訓練を安定させるために方向微分クリッピング法を用いる新しい手法である。
QZOは4ビットLLMの合計メモリコストを18ドル以上削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
- 参考スコア(独自算出の注目度): 18.645267970472936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size of large language models grows exponentially, GPU memory has become a bottleneck for adapting these models to downstream tasks. In this paper, we aim to push the limits of memory-efficient training by minimizing memory usage on model weights, gradients, and optimizer states, within a unified framework. Our idea is to eliminate both gradients and optimizer states using zeroth-order optimization, which approximates gradients by perturbing weights during forward passes to identify gradient directions. To minimize memory usage on weights, we employ model quantization, e.g., converting from bfloat16 to int4. However, directly applying zeroth-order optimization to quantized weights is infeasible due to the precision gap between discrete weights and continuous gradients, which would otherwise require de-quantization and re-quantization. To overcome this challenge, we propose Quantized Zeroth-order Optimization (QZO), a novel approach that perturbs the continuous quantization scale for gradient estimation and uses a directional derivative clipping method to stabilize training. QZO is orthogonal to both scalar-based and codebook-based post-training quantization methods. Compared to full-parameter fine-tuning in bfloat16, QZO can reduce the total memory cost by more than 18$\times$ for 4-bit LLMs, and enables fine-tuning Llama-2-13B and Stable Diffusion 3.5 Large within a single 24GB GPU.
- Abstract(参考訳): 大規模言語モデルのサイズが指数関数的に大きくなるにつれて、GPUメモリは、これらのモデルを下流タスクに適応する上でボトルネックとなっている。
本稿では,モデル重み,勾配,オプティマイザ状態のメモリ使用量を最小限に抑えることで,統一されたフレームワーク内でのメモリ効率トレーニングの限界を推し進めることを目的とする。
我々の考えは、ゼロ階最適化を用いて勾配と最適化状態の両方を排除し、前方通過時の重みの摂動によって勾配を近似し、勾配方向を特定することである。
重みのメモリ使用量を最小化するために、bfloat16からint4に変換するモデル量子化(eg)を用いる。
しかし、量子化重みへのゼロ階最適化を直接適用することは、離散重みと連続勾配の間の精度の差のため不可能であり、そうでなければ非量子化と再量子化を必要とする。
この課題を克服するために、勾配推定のために連続量子化尺度を摂動する新しい手法である量子化ゼロ階最適化(QZO)を提案し、訓練を安定させるために方向微分クリッピング法を用いる。
QZOはスカラーベースとコードブックベースのポストトレーニング量子化手法の両方に直交する。
bfloat16のフルパラメータの微調整と比較して、QZOは4ビットLLMの合計メモリコストを18$\times$で削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
関連論文リスト
- Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations [22.127873567034825]
大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。
既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。
これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
論文 参考訳(メタデータ) (2025-05-10T14:00:15Z) - QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。
従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。
本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T22:20:31Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients [24.58231358634904]
大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。
グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)は、スパースプロジェクションを利用して勾配を構造化されたスパース更新に変換する新しい手法である。
論文 参考訳(メタデータ) (2024-06-25T15:50:32Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - LG-LSQ: Learned Gradient Linear Symmetric Quantization [3.6816597150770387]
精度の低いディープニューラルネットワークは、メモリスペースとアクセルパワーのコストの観点から利点がある。
量子化アルゴリズムに関連する主な課題は、低ビット幅での精度を維持することである。
低ビット幅での重みと活性化関数の定量化手法として、学習された勾配線形量子化(LG-LSQ)を提案する。
論文 参考訳(メタデータ) (2022-02-18T03:38:12Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。