Fugu-MT 論文翻訳(概要): CacheQuant: Comprehensively Accelerated Diffusion Models

論文の概要: CacheQuant: Comprehensively Accelerated Diffusion Models

arxiv url: http://arxiv.org/abs/2503.01323v1
Date: Mon, 03 Mar 2025 09:04:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.906395
Title: CacheQuant: Comprehensively Accelerated Diffusion Models
Title（参考訳）: CacheQuant: 完全に高速化された拡散モデル
Authors: Xuewen Liu, Zhikai Li, Qingyi Gu,
Abstract要約: CacheQuantは、モデルキャッシングと量子化の技術を共同で最適化することで、拡散モデルを包括的に高速化する、新しいトレーニング不要のパラダイムである。実験の結果、CacheQuantはMS-COCO上の安定拡散のために5.18のスピードアップと4の圧縮を実現しており、CLIPスコアは0.02しか失われていない。
参考スコア（独自算出の注目度）: 3.78219736760145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have gradually gained prominence in the field of image synthesis, showcasing remarkable generative capabilities. Nevertheless, the slow inference and complex networks, resulting from redundancy at both temporal and structural levels, hinder their low-latency applications in real-world scenarios. Current acceleration methods for diffusion models focus separately on temporal and structural levels. However, independent optimization at each level to further push the acceleration limits results in significant performance degradation. On the other hand, integrating optimizations at both levels can compound the acceleration effects. Unfortunately, we find that the optimizations at these two levels are not entirely orthogonal. Performing separate optimizations and then simply integrating them results in unsatisfactory performance. To tackle this issue, we propose CacheQuant, a novel training-free paradigm that comprehensively accelerates diffusion models by jointly optimizing model caching and quantization techniques. Specifically, we employ a dynamic programming approach to determine the optimal cache schedule, in which the properties of caching and quantization are carefully considered to minimize errors. Additionally, we propose decoupled error correction to further mitigate the coupled and accumulated errors step by step. Experimental results show that CacheQuant achieves a 5.18 speedup and 4 compression for Stable Diffusion on MS-COCO, with only a 0.02 loss in CLIP score. Our code are open-sourced: https://github.com/BienLuky/CacheQuant .
Abstract（参考訳）: 拡散モデルは画像合成の分野で徐々に有名になり、顕著な生成能力を示している。それでも、時間的および構造的なレベルの冗長性から生じる遅い推論と複雑なネットワークは、現実のシナリオにおける低レイテンシの応用を妨げる。拡散モデルの現在の加速法は、時間的および構造的レベルに別々に焦点をあてる。しかし、加速限界をさらに押し上げるために各レベルで独立に最適化すると、性能が著しく低下する。一方、両方のレベルで最適化を統合することで、加速効果を複雑にすることができる。残念なことに、この2つのレベルの最適化は完全に直交するわけではない。別々の最適化を行い、それらを単に統合すれば、満足のいくパフォーマンスが得られる。そこで本研究では,モデルキャッシングと量子化を共同で最適化することで,拡散モデルを包括的に高速化する新しいトレーニングフリーパラダイムであるCacheQuantを提案する。具体的には、キャッシュと量子化の特性を慎重に考慮し、エラーを最小限に抑えるため、最適なキャッシュスケジュールを決定するために動的プログラミング手法を用いる。さらに,結合および累積誤差を段階的に軽減するデカップリング誤り補正を提案する。実験の結果、CacheQuantはMS-COCO上の安定拡散のために5.18のスピードアップと4の圧縮を実現しており、CLIPスコアは0.02しか失われていない。私たちのコードは、 https://github.com/BienLuky/CacheQuant でオープンソース化されています。

関連論文リスト

AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Q&C: When Quantization Meets Cache in Efficient Image Generation [24.783679431414686]
拡散変換器(DiT)の量子化とキャッシュ機構の組み合わせは簡単ではない。本稿では,上記の課題に対処してハイブリッド加速法を提案する。競合生成能力を保ちながら,DiTsを12.7倍高速化した。
論文参考訳（メタデータ） (2025-03-04T11:19:02Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。 DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文参考訳（メタデータ） (2023-12-01T17:01:06Z)
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-10-05T02:51:53Z)
Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文参考訳（メタデータ） (2020-06-16T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。