論文の概要: Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation
- arxiv url: http://arxiv.org/abs/2412.01243v1
- Date: Mon, 02 Dec 2024 08:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:57.063898
- Title: Schedule On the Fly: Diffusion Time Prediction for Faster and Better Image Generation
- Title(参考訳): 飛行スケジュール:高速でより良い画像生成のための拡散時間予測
- Authors: Zilyu Ye, Zhiyang Chen, Tiancheng Li, Zemin Huang, Weijian Luo, Guo-Jun Qi,
- Abstract要約: 時間予測拡散モデル (TPDM) は拡散モデルの適応型スケジューラである。
TPDMはプラグイン・アンド・プレイの時間予測モジュール(TPM)を採用しており、各聴覚ステップにおける現在の潜時特徴に基づいて次のノイズレベルを予測する。
安定拡散3ミディアムアーキテクチャでは、TPDMは5.44の美的スコアと29.59の人間の嗜好スコアを達成し、より優れたパフォーマンスを達成するために約50%のデノナイジングステップを使用する。
- 参考スコア(独自算出の注目度): 30.60041718224064
- License:
- Abstract: Diffusion and flow models have achieved remarkable successes in various applications such as text-to-image generation. However, these models typically rely on the same predetermined denoising schedules during inference for each prompt, which potentially limits the inference efficiency as well as the flexibility when handling different prompts. In this paper, we argue that the optimal noise schedule should adapt to each inference instance, and introduce the Time Prediction Diffusion Model (TPDM) to accomplish this. TPDM employs a plug-and-play Time Prediction Module (TPM) that predicts the next noise level based on current latent features at each denoising step. We train the TPM using reinforcement learning, aiming to maximize a reward that discounts the final image quality by the number of denoising steps. With such an adaptive scheduler, TPDM not only generates high-quality images that are aligned closely with human preferences but also adjusts the number of denoising steps and time on the fly, enhancing both performance and efficiency. We train TPDMs on multiple diffusion model benchmarks. With Stable Diffusion 3 Medium architecture, TPDM achieves an aesthetic score of 5.44 and a human preference score (HPS) of 29.59, while using around 50% fewer denoising steps to achieve better performance. We will release our best model alongside this paper.
- Abstract(参考訳): 拡散モデルとフローモデルは、テキスト・ツー・イメージ生成のような様々なアプリケーションで顕著な成功を収めた。
しかしながら、これらのモデルは典型的には、各プロンプトの推論中に同じ所定のスケジュールを定めているため、異なるプロンプトを扱う際には、推論効率と柔軟性が制限される可能性がある。
本稿では,各推定インスタンスに最適なノイズスケジュールを適応させることを論じ,これを実現するために時間予測拡散モデル(TPDM)を導入する。
TPDMはプラグイン・アンド・プレイの時間予測モジュール(TPM)を採用しており、各聴覚ステップにおける現在の潜時特徴に基づいて次のノイズレベルを予測する。
我々は、強化学習を用いてTPMを訓練し、復調ステップの数によって最終的な画質を低下させる報酬を最大化することを目的としている。
このような適応型スケジューラにより、TPDMは人間の好みに忠実に整合した高品質な画像を生成するだけでなく、デノイングステップの数や時間を調整し、性能と効率の両立を図っている。
複数の拡散モデルベンチマークでTPDMをトレーニングする。
安定拡散3ミディアムアーキテクチャでは、TPDMは5.44の美的スコアと29.59の人間の嗜好スコア(HPS)を達成し、より優れたパフォーマンスを達成するために約50%のデノナイジングステップを使用する。
私たちはこの論文と共にベストモデルをリリースします。
関連論文リスト
- Step Saver: Predicting Minimum Denoising Steps for Diffusion Model Image Generation [0.6906005491572401]
本稿では,任意のテキストプロンプトに必要な最小ステップ数を決定するために,革新的なNLPモデルを提案する。
Diffusionモデルとシームレスに動作するように設計されており、可能な限り短時間で画像が優れた品質で生成されることを保証している。
論文 参考訳(メタデータ) (2024-08-04T15:01:23Z) - Minutes to Seconds: Speeded-up DDPM-based Image Inpainting with Coarse-to-Fine Sampling [8.965432123669167]
本稿では,3つの高速化戦略を含むDDPM画像の効率的なインペイント手法を提案する。
まず,事前学習した軽量拡散モデル(LWDM)を用いてパラメータ数を削減する。
次に,Diffusion Implicit Models (DDIM) のスキップステップサンプリング方式を提案する。
論文 参考訳(メタデータ) (2024-07-08T12:33:54Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - On Inference Stability for Diffusion Models [6.846175045133414]
DPM(Denoising Probabilistic Models)は、多彩で高品質な画像を生成するのに優れた生成モデルの分野である。
現在のDPMのトレーニング手法の多くは、時間ステップ間の相関を無視することが多く、画像生成におけるモデルの性能を効果的に制限している。
そこで本研究では,サンプリング品質を高めるために,推定ギャップを小さくすることを目的とした,新しいtextVinitsequence-aware Losを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:57:34Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Diffusion Probabilistic Model Made Slim [128.2227518929644]
軽量画像合成のためのスリム拡散確率モデル(DPM)のカスタマイズ設計を提案する。
一連の条件および非条件画像生成タスクにおける遅延拡散モデルと比較して,計算複雑性を8-18倍に削減する。
論文 参考訳(メタデータ) (2022-11-27T16:27:28Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。