Fugu-MT 論文翻訳(概要): SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

論文の概要: SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

arxiv url: http://arxiv.org/abs/2411.05007v2
Date: Fri, 08 Nov 2024 18:32:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.531023
Title: SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models
Title（参考訳）: SVDQuant:4ビット拡散モデルのための低ランク成分による外周吸収
Authors: Muyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han,
Abstract要約: 拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
参考スコア（独自算出の注目度）: 58.5019443418822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have been proven highly effective at generating high-quality images. However, as these models grow larger, they require significantly more memory and suffer from higher latency, posing substantial challenges for deployment. In this work, we aim to accelerate diffusion models by quantizing their weights and activations to 4 bits. At such an aggressive level, both weights and activations are highly sensitive, where conventional post-training quantization methods for large language models like smoothing become insufficient. To overcome this limitation, we propose SVDQuant, a new 4-bit quantization paradigm. Different from smoothing which redistributes outliers between weights and activations, our approach absorbs these outliers using a low-rank branch. We first consolidate the outliers by shifting them from activations to weights, then employ a high-precision low-rank branch to take in the weight outliers with Singular Value Decomposition (SVD). This process eases the quantization on both sides. However, na\"{\i}vely running the low-rank branch independently incurs significant overhead due to extra data movement of activations, negating the quantization speedup. To address this, we co-design an inference engine Nunchaku that fuses the kernels of the low-rank branch into those of the low-bit branch to cut off redundant memory access. It can also seamlessly support off-the-shelf low-rank adapters (LoRAs) without the need for re-quantization. Extensive experiments on SDXL, PixArt-$\Sigma$, and FLUX.1 validate the effectiveness of SVDQuant in preserving image quality. We reduce the memory usage for the 12B FLUX.1 models by 3.5$\times$, achieving 3.0$\times$ speedup over the 4-bit weight-only quantized baseline on the 16GB laptop 4090 GPU, paving the way for more interactive applications on PCs. Our quantization library and inference engine are open-sourced.
Abstract（参考訳）: 拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。しかしながら、これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされ、デプロイメントに重大な課題が生じる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。このような攻撃的なレベルでは、ウェイトとアクティベーションのどちらも非常に敏感であり、スムージングのような大規模言語モデルに対する従来の訓練後の量子化手法は不十分である。この制限を克服するために,新たな4ビット量子化パラダイムであるSVDQuantを提案する。ウェイトとアクティベーションの間にアウトリールを再分配するスムースティングとは異なり,本手法は低ランク分岐を用いてこれらのアウトリールを吸収する。まず, アクティベーションからウェイトへのシフトにより, オフレイアを集約し, 次いで, Singular Value Decomposition (SVD) を用いて, 高精度の低ランク分岐を用いて, オフレイアを重み付けする。このプロセスは両面の量子化を容易にする。しかし、na\"{\i} が独立してローランクブランチを走らせると、アクティベーションの余分なデータ移動によって大きなオーバーヘッドが発生し、量子化のスピードアップが無視される。これを解決するために、低ランクブランチのカーネルを低ビットブランチのカーネルに融合させて冗長メモリアクセスを遮断する推論エンジンであるNunchakuを共同設計する。また、再量子化を必要とせずに、市販のローランクアダプタ(LoRA)をシームレスにサポートできる。 SDXL、PixArt-$\Sigma$、FLUX.1の大規模な実験は、画像品質の保存におけるSVDQuantの有効性を検証する。我々は、12B FLUX.1モデルのメモリ使用量を3.5$\times$で減らし、3.0$\times$で16GBのラップトップ4090 GPUの4ビットの量子化ベースラインをスピードアップし、PC上でよりインタラクティブなアプリケーションを実現する。我々の量子化ライブラリと推論エンジンはオープンソースです。

関連論文リスト

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [18.645267970472936]
量子化ゼロ階最適化(Quantized Zeroth-order Optimization, QZO)は、連続量子化スケールを推定するために摂動させ、訓練を安定させるために方向微分クリッピング法を用いる新しい手法である。 QZOは4ビットLLMの合計メモリコストを18ドル以上削減し、24GBのGPUでLlama-2-13BとStable Diffusion 3.5を微調整できる。
論文参考訳（メタデータ） (2025-05-19T17:55:15Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。 ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T22:01:55Z)
COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文参考訳（メタデータ） (2024-10-16T02:16:53Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文参考訳（メタデータ） (2024-06-10T06:06:11Z)
SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文参考訳（メタデータ） (2024-05-26T02:15:49Z)
SmoothQuant+: Accurate and Efficient 4-bit Post-Training WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。 SmoothQuant+は4ビットの重みのみのPTQである。
論文参考訳（メタデータ） (2023-12-06T11:10:55Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。 DDTBは超低精度で優れた性能を示した。例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文参考訳（メタデータ） (2022-03-08T04:26:18Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。