論文の概要: Memory-Efficient Fine-Tuning for Quantized Diffusion Model
- arxiv url: http://arxiv.org/abs/2401.04339v2
- Date: Thu, 18 Jul 2024 11:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:41:25.918294
- Title: Memory-Efficient Fine-Tuning for Quantized Diffusion Model
- Title(参考訳): 量子拡散モデルのためのメモリ効率の良い微調整
- Authors: Hyogon Ryu, Seohyun Lim, Hyunjung Shim,
- Abstract要約: 本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 12.875837358532422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of billion-parameter diffusion models such as Stable Diffusion XL, Imagen, and DALL-E 3 has significantly propelled the domain of generative AI. However, their large-scale architecture presents challenges in fine-tuning and deployment due to high resource demands and slow inference speed. This paper explores the relatively unexplored yet promising realm of fine-tuning quantized diffusion models. Our analysis revealed that the baseline neglects the distinct patterns in model weights and the different roles throughout time steps when finetuning the diffusion model. To address these limitations, we introduce a novel memory-efficient fine-tuning method specifically designed for quantized diffusion models, dubbed TuneQDM. Our approach introduces quantization scales as separable functions to consider inter-channel weight patterns. Then, it optimizes these scales in a timestep-specific manner for effective reflection of the role of each time step. TuneQDM achieves performance on par with its full-precision counterpart while simultaneously offering significant memory efficiency. Experimental results demonstrate that our method consistently outperforms the baseline in both single-/multi-subject generations, exhibiting high subject fidelity and prompt fidelity comparable to the full precision model.
- Abstract(参考訳): 安定拡散XL、Imagen、DALL-E 3のような数十億パラメータ拡散モデルの出現は、生成AIの領域を著しく推進している。
しかし、彼らの大規模アーキテクチャは、リソースの要求が高く、推論速度が遅いため、微調整とデプロイメントの課題を呈している。
本稿では、微調整量子化拡散モデルの比較的未解明かつ有望な領域について考察する。
解析の結果,拡散モデルの微調整において,モデル重みの異なるパターンと時間段階の異なる役割を無視することが判明した。
これらの制約に対処するために,TuneQDMと呼ばれる量子化拡散モデルに特化して設計された,メモリ効率の高いファインチューニング手法を提案する。
本稿では,チャネル間重みパターンを考慮した分別関数として量子化スケールを導入する。
そして、これらのスケールをタイムステップ固有の方法で最適化し、各タイムステップの役割を効果的に反映します。
TuneQDMは、その完全精度に匹敵するパフォーマンスを実現し、同時にメモリ効率も大幅に向上した。
実験結果から,本手法は単目的/多目的の両世代におけるベースラインを一貫して上回り,高い主観的忠実度を示し,完全精度のモデルに匹敵する即時的忠実度を示すことがわかった。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Distillation of Discrete Diffusion through Dimensional Correlations [21.078500510691747]
離散拡散における「ミクチャー」モデルは、拡張性を維持しながら次元相関を扱える。
CIFAR-10データセットで事前学習した連続時間離散拡散モデルを蒸留することにより,提案手法が実際に動作することを実証的に実証した。
論文 参考訳(メタデータ) (2024-10-11T10:53:03Z) - Timestep-Aware Correction for Quantized Diffusion Models [28.265582848911574]
本稿では,量子化誤差を動的に補正する量子化拡散モデルの時間ステップ対応補正法を提案する。
提案手法を低精度拡散モデルに応用することにより,出力品質の大幅な向上が期待できる。
論文 参考訳(メタデータ) (2024-07-04T13:22:31Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。