論文の概要: DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation
- arxiv url: http://arxiv.org/abs/2409.14307v2
- Date: Wed, 25 Sep 2024 15:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:15:03.732240
- Title: DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation
- Title(参考訳): DilateQuant: ウェイトディレーションによる高精度かつ効率的な拡散量子化
- Authors: Xuewen Liu, Zhikai Li, Qingyi Gu,
- Abstract要約: 拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。
既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。
拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
- 参考スコア(独自算出の注目度): 3.78219736760145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown excellent performance on various image generation tasks, but the substantial computational costs and huge memory footprint hinder their low-latency applications in real-world scenarios. Quantization is a promising way to compress and accelerate models. Nevertheless, due to the wide range and time-varying activations in diffusion models, existing methods cannot maintain both accuracy and efficiency simultaneously for low-bit quantization. To tackle this issue, we propose DilateQuant, a novel quantization framework for diffusion models that offers comparable accuracy and high efficiency. Specifically, we keenly aware of numerous unsaturated in-channel weights, which can be cleverly exploited to reduce the range of activations without additional computation cost. Based on this insight, we propose Weight Dilation (WD) that maximally dilates the unsaturated in-channel weights to a constrained range through a mathematically equivalent scaling. WD costlessly absorbs the activation quantization errors into weight quantization. The range of activations decreases, which makes activations quantization easy. The range of weights remains constant, which makes model easy to converge in training stage. Considering the temporal network leads to time-varying activations, we design a Temporal Parallel Quantizer (TPQ), which sets time-step quantization parameters and supports parallel quantization for different time steps, significantly improving the performance and reducing time cost. To further enhance performance while preserving efficiency, we introduce a Block-wise Knowledge Distillation (BKD) to align the quantized models with the full-precision models at a block level. The simultaneous training of time-step quantization parameters and weights minimizes the time required, and the shorter backpropagation paths decreases the memory footprint of the quantization process.
- Abstract(参考訳): 拡散モデルは、様々な画像生成タスクにおいて優れた性能を示すが、計算コストと膨大なメモリフットプリントは、現実のシナリオにおける低レイテンシの応用を妨げる。
量子化はモデルを圧縮し加速する有望な方法である。
それにもかかわらず、拡散モデルにおける広い範囲と時間変化の活性化により、既存の手法は、低ビット量子化のための精度と効率の両方を同時に維持することはできない。
この問題に対処するため,拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
具体的には、多くの不飽和チャネル内重みを熱心に認識し、演算コストを伴わずにアクティベーションの範囲を減らすために巧みに利用することができる。
この知見に基づいて、数学的に等価なスケーリングにより、不飽和チャネル内の重みを制限範囲に最大で拡張するウェイトディレーション(WD)を提案する。
WDは、アクティベーション量子化エラーをコストレスで重み量子化に吸収する。
アクティベーションの範囲は減少し、アクティベーションの量子化が容易になる。
重量の範囲は一定であり、トレーニング段階でモデルを収束させるのが容易である。
時間的ネットワークが時間的活性化につながることを考慮し、時間段階の量子化パラメータを設定し、異なる時間ステップで並列量子化をサポートし、性能を著しく改善し、時間コストを削減できる時間的並列量子化器(TPQ)を設計する。
効率を保ちながらさらなる性能向上を図るため、ブロックレベルで量子化されたモデルと完全精度のモデルとを整合させるブロックワイズ知識蒸留(BKD)を導入する。
時間ステップの量子化パラメータと重みの同時トレーニングは、必要な時間を最小限にし、短いバックプロパゲーションパスは、量子化プロセスのメモリフットプリントを減少させる。
関連論文リスト
- Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。
また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文 参考訳(メタデータ) (2024-03-22T07:21:09Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Towards Accurate Post-training Quantization for Diffusion Models [73.19871905102545]
本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータフリーポストトレーニング量子化フレームワークを提案する。
提案手法は, 拡散モデルの学習後の量子化を, 同様の計算コストで, 非常に大きなマージンで高速化する。
論文 参考訳(メタデータ) (2023-05-30T04:00:35Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。