論文の概要: SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.05007v2
- Date: Fri, 08 Nov 2024 18:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 11:36:08.854585
- Title: SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models
- Title(参考訳): SVDQuant:4ビット拡散モデルのための低ランク成分による外周吸収
- Authors: Muyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han,
- Abstract要約: 拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
- 参考スコア(独自算出の注目度): 58.5019443418822
- License:
- Abstract: Diffusion models have been proven highly effective at generating high-quality images. However, as these models grow larger, they require significantly more memory and suffer from higher latency, posing substantial challenges for deployment. In this work, we aim to accelerate diffusion models by quantizing their weights and activations to 4 bits. At such an aggressive level, both weights and activations are highly sensitive, where conventional post-training quantization methods for large language models like smoothing become insufficient. To overcome this limitation, we propose SVDQuant, a new 4-bit quantization paradigm. Different from smoothing which redistributes outliers between weights and activations, our approach absorbs these outliers using a low-rank branch. We first consolidate the outliers by shifting them from activations to weights, then employ a high-precision low-rank branch to take in the weight outliers with Singular Value Decomposition (SVD). This process eases the quantization on both sides. However, na\"{\i}vely running the low-rank branch independently incurs significant overhead due to extra data movement of activations, negating the quantization speedup. To address this, we co-design an inference engine Nunchaku that fuses the kernels of the low-rank branch into those of the low-bit branch to cut off redundant memory access. It can also seamlessly support off-the-shelf low-rank adapters (LoRAs) without the need for re-quantization. Extensive experiments on SDXL, PixArt-$\Sigma$, and FLUX.1 validate the effectiveness of SVDQuant in preserving image quality. We reduce the memory usage for the 12B FLUX.1 models by 3.5$\times$, achieving 3.0$\times$ speedup over the 4-bit weight-only quantized baseline on the 16GB laptop 4090 GPU, paving the way for more interactive applications on PCs. Our quantization library and inference engine are open-sourced.
- Abstract(参考訳): 拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
しかしながら、これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされ、デプロイメントに重大な課題が生じる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
このような攻撃的なレベルでは、ウェイトとアクティベーションのどちらも非常に敏感であり、スムージングのような大規模言語モデルに対する従来の訓練後の量子化手法は不十分である。
この制限を克服するために,新たな4ビット量子化パラダイムであるSVDQuantを提案する。
ウェイトとアクティベーションの間にアウトリールを再分配するスムースティングとは異なり,本手法は低ランク分岐を用いてこれらのアウトリールを吸収する。
まず, アクティベーションからウェイトへのシフトにより, オフレイアを集約し, 次いで, Singular Value Decomposition (SVD) を用いて, 高精度の低ランク分岐を用いて, オフレイアを重み付けする。
このプロセスは両面の量子化を容易にする。
しかし、na\"{\i} が独立してローランクブランチを走らせると、アクティベーションの余分なデータ移動によって大きなオーバーヘッドが発生し、量子化のスピードアップが無視される。
これを解決するために、低ランクブランチのカーネルを低ビットブランチのカーネルに融合させて冗長メモリアクセスを遮断する推論エンジンであるNunchakuを共同設計する。
また、再量子化を必要とせずに、市販のローランクアダプタ(LoRA)をシームレスにサポートできる。
SDXL、PixArt-$\Sigma$、FLUX.1の大規模な実験は、画像品質の保存におけるSVDQuantの有効性を検証する。
我々は、12B FLUX.1モデルのメモリ使用量を3.5$\times$で減らし、3.0$\times$で16GBのラップトップ4090 GPUの4ビットの量子化ベースラインをスピードアップし、PC上でよりインタラクティブなアプリケーションを実現する。
我々の量子化ライブラリと推論エンジンはオープンソースです。
関連論文リスト
- COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - SmoothQuant+: Accurate and Efficient 4-bit Post-Training
WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。
現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。
SmoothQuant+は4ビットの重みのみのPTQである。
論文 参考訳(メタデータ) (2023-12-06T11:10:55Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。