論文の概要: SQ-DM: Accelerating Diffusion Models with Aggressive Quantization and Temporal Sparsity
- arxiv url: http://arxiv.org/abs/2501.15448v1
- Date: Sun, 26 Jan 2025 08:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:03.753691
- Title: SQ-DM: Accelerating Diffusion Models with Aggressive Quantization and Temporal Sparsity
- Title(参考訳): SQ-DM: 攻撃的量子化と時間空間の分散モデル
- Authors: Zichen Fan, Steve Dai, Rangharajan Venkatesan, Dennis Sylvester, Brucek Khailany,
- Abstract要約: 本稿では,混合精度密度スパースアーキテクチャ,チャネルラストアドレスマッピング,時間ステップ対応空間検出器を備えた新しい拡散モデル加速器を提案する。
我々の加速器は従来の高密度加速器に比べて6.91倍のスピードアップと51.5%のエネルギー削減を実現している。
- 参考スコア(独自算出の注目度): 4.6126713437495495
- License:
- Abstract: Diffusion models have gained significant popularity in image generation tasks. However, generating high-quality content remains notably slow because it requires running model inference over many time steps. To accelerate these models, we propose to aggressively quantize both weights and activations, while simultaneously promoting significant activation sparsity. We further observe that the stated sparsity pattern varies among different channels and evolves across time steps. To support this quantization and sparsity scheme, we present a novel diffusion model accelerator featuring a heterogeneous mixed-precision dense-sparse architecture, channel-last address mapping, and a time-step-aware sparsity detector for efficient handling of the sparsity pattern. Our 4-bit quantization technique demonstrates superior generation quality compared to existing 4-bit methods. Our custom accelerator achieves 6.91x speed-up and 51.5% energy reduction compared to traditional dense accelerators.
- Abstract(参考訳): 拡散モデルは画像生成タスクで顕著に人気を博している。
しかし、多くの時間ステップでモデル推論を実行する必要があるため、高品質なコンテンツの生成は明らかに遅いままである。
これらのモデルを高速化するために、重みとアクティベーションの両方を積極的に定量化し、同時に重要なアクティベーション空間を促進させることを提案する。
さらに、記述されたスパーシティパターンは異なるチャネルによって異なり、時間ステップで進化していくことを観察する。
この量子化と空間空間の分散化を支援するために,不均一な混合精度密度スパースアーキテクチャ,チャネルラストアドレスマッピング,空間空間パターンの効率的な処理のための時間ステップ対応空間空間検出機能を備えた新しい拡散モデル加速器を提案する。
我々の4ビット量子化技術は、既存の4ビット法よりも優れた生成品質を示す。
我々のカスタムアクセラレータは従来の高密度加速器に比べて6.91倍のスピードアップと51.5%のエネルギー削減を実現している。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [36.65594293655289]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
近年,より高速な生成プロセスの自動探索技術が採用されている。
拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文 参考訳(メタデータ) (2024-09-26T06:28:05Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。