論文の概要: Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment
- arxiv url: http://arxiv.org/abs/2508.06160v1
- Date: Fri, 08 Aug 2025 09:29:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.176572
- Title: Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment
- Title(参考訳): ステップ数や1ステップあたりのチープな推論:Compute-Optimal Diffusion Model Deploymentを目指して
- Authors: Zhenbang Du, Yonggan Fu, Lifu Wang, Jiayi Qian, Xiao Luo, Yingyan, Lin,
- Abstract要約: PostDiffは、トレーニング済みの拡散モデルを加速するためのトレーニング不要のフレームワークである。
我々はPostDiffが最先端拡散モデルの忠実性と効率のトレードオフを大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 14.097906894386066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown remarkable success across generative tasks, yet their high computational demands challenge deployment on resource-limited platforms. This paper investigates a critical question for compute-optimal diffusion model deployment: Under a post-training setting without fine-tuning, is it more effective to reduce the number of denoising steps or to use a cheaper per-step inference? Intuitively, reducing the number of denoising steps increases the variability of the distributions across steps, making the model more sensitive to compression. In contrast, keeping more denoising steps makes the differences smaller, preserving redundancy, and making post-training compression more feasible. To systematically examine this, we propose PostDiff, a training-free framework for accelerating pre-trained diffusion models by reducing redundancy at both the input level and module level in a post-training manner. At the input level, we propose a mixed-resolution denoising scheme based on the insight that reducing generation resolution in early denoising steps can enhance low-frequency components and improve final generation fidelity. At the module level, we employ a hybrid module caching strategy to reuse computations across denoising steps. Extensive experiments and ablation studies demonstrate that (1) PostDiff can significantly improve the fidelity-efficiency trade-off of state-of-the-art diffusion models, and (2) to boost efficiency while maintaining decent generation fidelity, reducing per-step inference cost is often more effective than reducing the number of denoising steps. Our code is available at https://github.com/GATECH-EIC/PostDiff.
- Abstract(参考訳): 拡散モデルは、生成的タスク全体において顕著な成功を示しているが、その高い計算要求は、リソース制限されたプラットフォームへのデプロイに挑戦している。
本稿では,計算-最適拡散モデル展開における重要な課題について考察する: 微調整なしの訓練後設定では,デノナイズステップの削減や,ステップ毎の推論の低コスト化がより効果的か?
直感的には、デノナイジングステップの数を減らすことで、ステップ間の分散のばらつきが増大し、モデルが圧縮に敏感になる。
対照的に、よりデノイングなステップを維持することで、違いを小さくし、冗長性を保ち、トレーニング後の圧縮をより可能とします。
これを体系的に検証するために、PostDiffを提案する。PostDiffは、事前学習した拡散モデルの高速化のためのトレーニング不要のフレームワークであり、入力レベルとモジュールレベルの冗長性を後学習方法で低減する。
入力レベルでは、初期復調ステップにおける生成分解能の低減が低周波成分を向上し、最終生成忠実度を向上させるという知見に基づく混合分解能デノナイジング方式を提案する。
モジュールレベルでは、デノナイジングステップをまたいだ計算を再利用するために、ハイブリッドモジュールキャッシング戦略を採用しています。
拡張実験およびアブレーション実験により,(1)PostDiffは,最先端拡散モデルの忠実度・効率トレードオフを大幅に改善し,(2)良好な生成忠実度を維持しつつ効率を向上させることができることがわかった。
私たちのコードはhttps://github.com/GATECH-EIC/PostDiff.comで公開されています。
関連論文リスト
- Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios [10.57695963534794]
VAEに基づく手法には、局所的なジッタとグローバルな不安定性の問題が伴う。
本稿では,音声制御信号を捕捉し,拡散段差と発声段差の多モーダル denoising 分布を暗黙的に一致させる条件付き GAN を提案する。
論文 参考訳(メタデータ) (2024-10-27T07:25:11Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Noise Estimation for Generative Diffusion Models [91.22679787578438]
そこで本研究では,任意のステップの雑音パラメータを調整可能な,単純で汎用的な学習手法を提案する。
私たちのアプローチは計算コストが無視できるものです。
論文 参考訳(メタデータ) (2021-04-06T15:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。