論文の概要: Unified Continuous Generative Models
- arxiv url: http://arxiv.org/abs/2505.07447v2
- Date: Tue, 20 May 2025 12:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.2466
- Title: Unified Continuous Generative Models
- Title(参考訳): 統一連続生成モデル
- Authors: Peng Sun, Yi Jiang, Tao Lin,
- Abstract要約: 本稿では,連続生成モデルのトレーニング,サンプリング,解析を行う統合フレームワークを提案する。
我々の実装は、最先端(SOTA)のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 12.358393766570732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in continuous generative models, including multi-step approaches like diffusion and flow-matching (typically requiring 8-1000 sampling steps) and few-step methods such as consistency models (typically 1-8 steps), have demonstrated impressive generative performance. However, existing work often treats these approaches as distinct paradigms, resulting in separate training and sampling methodologies. We introduce a unified framework for training, sampling, and analyzing these models. Our implementation, the Unified Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a 675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID in 20 steps and a few-step model reaching 1.42 FID in just 2 steps. Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at 250 steps) improves performance to 1.06 FID in only 40 steps. Code is available at: https://github.com/LINs-lab/UCGM.
- Abstract(参考訳): 拡散やフローマッチング(典型的には8-1000のサンプリングステップを必要とする)のような多段階のアプローチや、一貫性モデル(典型的には1-8のステップ)のような数段階の手法を含む連続生成モデルの最近の進歩は、印象的な生成性能を示している。
しかしながら、既存の研究はしばしばこれらのアプローチを異なるパラダイムとして扱い、結果として別々のトレーニングとサンプリング手法が生み出される。
これらのモデルをトレーニング、サンプリング、分析するための統合されたフレームワークを導入します。
我々の実装であるUnified Continuous Generative Models Trainer and Sampler (UCGM-{T,S})は、最先端(SOTA)の性能を達成する。
例えば、675M拡散変換器を使用したImageNet 256x256では、UCGM-Tは20ステップで1.30 FID、わずか2ステップで数ステップで1.42 FIDに達するマルチステップモデルを訓練している。
さらに、UCGM-Sを事前訓練されたモデル(以前は250ステップで1.26 FID)に適用すると、わずか40ステップで1.06 FIDのパフォーマンスが向上する。
コードは、https://github.com/LINs-lab/UCGM.comで入手できる。
関連論文リスト
- Inductive Moment Matching [80.96561758341664]
Inductive Moment Matching (IMM) は1段階または数段階のサンプリングのための新しい生成モデルである。
IMMはImageNet-256x256上の拡散モデルを8ステップのみを用いて1.99 FIDで上回り、CIFAR-10上で1.98の最先端の2ステップFIDをスクラッチから訓練したモデルで達成する。
論文 参考訳(メタデータ) (2025-03-10T17:37:39Z) - One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Multistep Consistency Models [24.443707181138553]
1ステップの一貫性モデルは従来の一貫性モデルであるが、$infty$ステップの一貫性モデルは拡散モデルである。
サンプル予算を1ステップから2~8ステップに増やすことで、より高い品質のサンプルを生成するモデルをより簡単にトレーニングすることが可能になります。
提案手法はテキストから画像への拡散モデルにスケールし,元のモデルの品質に近いサンプルを生成する。
論文 参考訳(メタデータ) (2024-03-11T15:26:34Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。