論文の概要: Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models
- arxiv url: http://arxiv.org/abs/2410.11081v1
- Date: Mon, 14 Oct 2024 20:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:56.623621
- Title: Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models
- Title(参考訳): 継続的一貫性モデルの簡素化、安定化、スケーリング
- Authors: Cheng Lu, Yang Song,
- Abstract要約: 一貫性モデル(CM)は、高速サンプリングのための拡散ベース生成モデルの強力なクラスである。
既存のCMの多くは、離散化されたタイムステップを使用してトレーニングされており、これは追加のハイパーパラメータを導入し、離散化エラーを起こしやすい。
本稿では,拡散モデルとCMの過去のパラメータ化を統一し,不安定性の根本原因を同定する簡易な理論フレームワークを提案する。
CIFAR-10では2.06点、ImageNet 64x64では1.48点、ImageNet 512x512では1.88点のFIDスコアを達成し、FIDスコアの差を狭める。
- 参考スコア(独自算出の注目度): 7.254959022456085
- License:
- Abstract: Consistency models (CMs) are a powerful class of diffusion-based generative models optimized for fast sampling. Most existing CMs are trained using discretized timesteps, which introduce additional hyperparameters and are prone to discretization errors. While continuous-time formulations can mitigate these issues, their success has been limited by training instability. To address this, we propose a simplified theoretical framework that unifies previous parameterizations of diffusion models and CMs, identifying the root causes of instability. Based on this analysis, we introduce key improvements in diffusion process parameterization, network architecture, and training objectives. These changes enable us to train continuous-time CMs at an unprecedented scale, reaching 1.5B parameters on ImageNet 512x512. Our proposed training algorithm, using only two sampling steps, achieves FID scores of 2.06 on CIFAR-10, 1.48 on ImageNet 64x64, and 1.88 on ImageNet 512x512, narrowing the gap in FID scores with the best existing diffusion models to within 10%.
- Abstract(参考訳): 一貫性モデル(CM)は、高速サンプリングに最適化された拡散ベース生成モデルの強力なクラスである。
既存のCMの多くは、離散化されたタイムステップを使用してトレーニングされており、これは追加のハイパーパラメータを導入し、離散化エラーを起こしやすい。
継続的定式化はこれらの問題を緩和するが、その成功はトレーニングの不安定さによって制限されている。
そこで本研究では,拡散モデルとCMの従来のパラメータ化を統一し,不安定性の根本原因を同定する,簡易な理論的枠組みを提案する。
この分析に基づき,拡散過程のパラメータ化,ネットワークアーキテクチャ,学習目標の重要な改善点を紹介する。
これらの変更により、ImageNet 512x512上で1.5Bのパラメータに到達した、前例のない規模の継続的CMのトレーニングが可能になりました。
CIFAR-10ではFIDスコアが2.06, ImageNet 64x64では1.48, ImageNet 512x512では1.88, 既存の拡散モデルではFIDスコアの差を10%以内に縮めた。
関連論文リスト
- Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Invertible Diffusion Models for Compressed Sensing [22.293412255419614]
Invertible Diffusion Models (IDM) は、新しい効率的でエンドツーエンドの拡散に基づくCS法である。
IDMはCS測定から直接元の画像を復元するためにエンドツーエンドに微調整する。
IDMは最大10.09dBのPSNRゲインと14.54倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-03-25T17:59:41Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。