論文の概要: VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2408.17131v1
- Date: Fri, 30 Aug 2024 09:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:58:20.739076
- Title: VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers
- Title(参考訳): VQ4DiT:拡散変圧器の高速後ベクトル量子化
- Authors: Juncan Deng, Shuaiting Li, Zeyu Wang, Hong Gu, Kedong Xu, Kejie Huang,
- Abstract要約: Diffusion Transformers Models (DiTs) は、ネットワークアーキテクチャを従来のUNetsからTransformersに移行し、画像生成において例外的な能力を示した。
ベクトル量子化(VQ)は、モデルの重みをコードブックと代入に分解し、極端な重み量子化とメモリ使用量の大幅な削減を可能にする。
実験により、VQ4DiTはモデルサイズと性能トレードオフの新たな最先端を確立でき、重みを2ビット精度に定量化でき、画像生成品質は許容できる。
- 参考スコア(独自算出の注目度): 7.369445527610879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Diffusion Transformers Models (DiTs) have transitioned the network architecture from traditional UNets to transformers, demonstrating exceptional capabilities in image generation. Although DiTs have been widely applied to high-definition video generation tasks, their large parameter size hinders inference on edge devices. Vector quantization (VQ) can decompose model weight into a codebook and assignments, allowing extreme weight quantization and significantly reducing memory usage. In this paper, we propose VQ4DiT, a fast post-training vector quantization method for DiTs. We found that traditional VQ methods calibrate only the codebook without calibrating the assignments. This leads to weight sub-vectors being incorrectly assigned to the same assignment, providing inconsistent gradients to the codebook and resulting in a suboptimal result. To address this challenge, VQ4DiT calculates the candidate assignment set for each weight sub-vector based on Euclidean distance and reconstructs the sub-vector based on the weighted average. Then, using the zero-data and block-wise calibration method, the optimal assignment from the set is efficiently selected while calibrating the codebook. VQ4DiT quantizes a DiT XL/2 model on a single NVIDIA A100 GPU within 20 minutes to 5 hours depending on the different quantization settings. Experiments show that VQ4DiT establishes a new state-of-the-art in model size and performance trade-offs, quantizing weights to 2-bit precision while retaining acceptable image generation quality.
- Abstract(参考訳): Diffusion Transformers Models (DiTs) は、ネットワークアーキテクチャを従来のUNetsからTransformersに移行し、画像生成において例外的な能力を示した。
DiTは高精細ビデオ生成タスクに広く応用されているが、その大きなパラメータサイズはエッジデバイスでの推論を妨げている。
ベクトル量子化(VQ)は、モデルの重みをコードブックと代入に分解し、極端な重み量子化とメモリ使用量の大幅な削減を可能にする。
本稿では,DiTの高速後ベクトル量子化法であるVQ4DiTを提案する。
従来のVQメソッドは、割り当てを調整せずに、コードブックのみを校正することがわかった。
これにより、ウェイトなサブベクターが誤って同じ割り当てに割り当てられ、コードブックに一貫性のない勾配を与え、亜最適結果をもたらす。
この課題に対処するため、VQ4DiTはユークリッド距離に基づいて各重み付きベクトルの候補割り当てを算出し、重み付き平均に基づいてサブベクトルを再構成する。
そして、ゼロデータ及びブロックワイドキャリブレーション法を用いて、コードブックを校正しながら、セットからの最適な割り当てを効率的に選択する。
VQ4DiTは、異なる量子化設定に応じて、単一のNVIDIA A100 GPU上のDiT XL/2モデルを20分から5時間以内に量子化する。
実験により、VQ4DiTはモデルサイズと性能トレードオフの新たな最先端性を確立し、容認可能な画像生成品質を維持しながら、重みを2ビット精度に定量化することを示した。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - QTIP: Quantization with Trellises and Incoherence Processing [29.917017118524246]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを削減する。
最近の最先端のPTQアプローチでは、ベクトル量子化(VQ)を使用して複数の重みを同時に定量化している。
超高次元量子化を実現するためにトレリス符号化量子化(TCQ)を用いるQTIPを導入する。
論文 参考訳(メタデータ) (2024-06-17T06:03:13Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.00085349135532]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
既存の拡散量子化手法をU-Netに適用することは品質維持の課題に直面している。
我々は、新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により、ViDiT-Qを改善する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - STAT: Shrinking Transformers After Training [72.0726371426711]
微調整なしで変圧器モデルを作成するための簡単なアルゴリズムSTATを提案する。
STATは、次の層の重みを補正して精度を保ちながら、注意頭とニューロンの両方をネットワークから排除する。
われわれのアルゴリズムは、BERTを圧縮するのに数分を要し、単一のGPUを用いて7Bパラメータを持つモデルを圧縮するのに3時間もかからない。
論文 参考訳(メタデータ) (2024-05-29T22:59:11Z) - GPTVQ: The Blessing of Dimensionality for LLM Quantization [16.585681547799762]
ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。
GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。
本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
論文 参考訳(メタデータ) (2024-02-23T13:39:16Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。