論文の概要: Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation
- arxiv url: http://arxiv.org/abs/2412.01243v3
- Date: Wed, 05 Mar 2025 11:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:59.562575
- Title: Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation
- Title(参考訳): 飛行スケジュール:高速でより良い画像生成のための拡散時間予測
- Authors: Zilyu Ye, Zhiyang Chen, Tiancheng Li, Zemin Huang, Weijian Luo, Guo-Jun Qi,
- Abstract要約: 多段階の逆拡散過程は、高品質な画像を段階的に生成するための一種の連鎖と見なすことができる。
Time Prediction Diffusion Model (TPDM) はプラグイン・アンド・プレイのTime Prediction Module (TPM) を用いており、各デノナイジングステップにおける現在の潜時特性に基づいて次のノイズレベルを予測する。
TPDMは審美スコア5.44と人選好スコア29.59を達成し、より優れたパフォーマンスを達成するために約50%のデノナイジングステップを使用する。
- 参考スコア(独自算出の注目度): 30.60041718224064
- License:
- Abstract: Diffusion and flow matching models have achieved remarkable success in text-to-image generation. However, these models typically rely on the predetermined denoising schedules for all prompts. The multi-step reverse diffusion process can be regarded as a kind of chain-of-thought for generating high-quality images step by step. Therefore, diffusion models should reason for each instance to adaptively determine the optimal noise schedule, achieving high generation quality with sampling efficiency. In this paper, we introduce the Time Prediction Diffusion Model (TPDM) for this. TPDM employs a plug-and-play Time Prediction Module (TPM) that predicts the next noise level based on current latent features at each denoising step. We train the TPM using reinforcement learning to maximize a reward that encourages high final image quality while penalizing excessive denoising steps. With such an adaptive scheduler, TPDM not only generates high-quality images that are aligned closely with human preferences but also adjusts diffusion time and the number of denoising steps on the fly, enhancing both performance and efficiency. With Stable Diffusion 3 Medium architecture, TPDM achieves an aesthetic score of 5.44 and a human preference score (HPS) of 29.59, while using around 50% fewer denoising steps to achieve better performance.
- Abstract(参考訳): 拡散およびフローマッチングモデルは、テキスト・画像生成において顕著な成功を収めた。
しかしながら、これらのモデルは典型的にはすべてのプロンプトに対して所定の偏執スケジュールに依存している。
多段階逆拡散過程は、高品質な画像を段階的に生成するための一種の連鎖と見なすことができる。
したがって、拡散モデルでは各インスタンスが最適なノイズスケジュールを適応的に決定し、サンプリング効率で高次品質を実現する必要がある。
本稿では,時間予測拡散モデル(TPDM)を提案する。
TPDMはプラグイン・アンド・プレイの時間予測モジュール(TPM)を採用しており、各聴覚ステップにおける現在の潜時特徴に基づいて次のノイズレベルを予測する。
我々は、強化学習を用いてTPMを訓練し、過度なデノベーションステップをペナルティ化しながら、最終的な画質を高める報酬を最大化する。
このような適応型スケジューラにより、TPDMは人間の嗜好に忠実に整合した高品質な画像を生成するだけでなく、拡散時間や飛行中のデノナイジングステップの数を調整し、性能と効率を向上する。
安定拡散3ミディアムアーキテクチャでは、TPDMは5.44の美的スコアと29.59の人間の嗜好スコア(HPS)を達成し、より優れたパフォーマンスを達成するために約50%のデノナイジングステップを使用する。
関連論文リスト
- Step Saver: Predicting Minimum Denoising Steps for Diffusion Model Image Generation [0.6906005491572401]
本稿では,任意のテキストプロンプトに必要な最小ステップ数を決定するために,革新的なNLPモデルを提案する。
Diffusionモデルとシームレスに動作するように設計されており、可能な限り短時間で画像が優れた品質で生成されることを保証している。
論文 参考訳(メタデータ) (2024-08-04T15:01:23Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - On Inference Stability for Diffusion Models [6.846175045133414]
DPM(Denoising Probabilistic Models)は、多彩で高品質な画像を生成するのに優れた生成モデルの分野である。
現在のDPMのトレーニング手法の多くは、時間ステップ間の相関を無視することが多く、画像生成におけるモデルの性能を効果的に制限している。
そこで本研究では,サンプリング品質を高めるために,推定ギャップを小さくすることを目的とした,新しいtextVinitsequence-aware Losを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:57:34Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。