論文の概要: Stable Consistency Tuning: Understanding and Improving Consistency Models
- arxiv url: http://arxiv.org/abs/2410.18958v3
- Date: Wed, 04 Dec 2024 05:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:35.707079
- Title: Stable Consistency Tuning: Understanding and Improving Consistency Models
- Title(参考訳): 安定した一貫性チューニング:一貫性モデルの理解と改善
- Authors: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li,
- Abstract要約: 拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
- 参考スコア(独自算出の注目度): 40.2712218203989
- License:
- Abstract: Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through consistency distillation, which leverages pretrained diffusion models, or consistency training/tuning directly from raw data. In this work, we propose a novel framework for understanding consistency models by modeling the denoising process of the diffusion model as a Markov Decision Process (MDP) and framing consistency model training as the value estimation through Temporal Difference~(TD) Learning. More importantly, this framework allows us to analyze the limitations of current consistency training/tuning strategies. Built upon Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT), which incorporates variance-reduced learning using the score identity. SCT leads to significant performance improvements on benchmarks such as CIFAR-10 and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID 1.55, a new SoTA for consistency models.
- Abstract(参考訳): 拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
対照的に、新しい生成ファミリである一貫性モデルでは、サンプリングが大幅に高速化され、競争性能が向上する。
これらのモデルは、事前訓練された拡散モデルを利用する整合蒸留または生データから直接整合性トレーニング/チューニングによって訓練される。
本研究では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差〜(TD)学習による評価値としてのフレーミング一貫性モデルのトレーニングを提案する。
さらに重要なのは、このフレームワークによって、現在の一貫性トレーニング/チューニング戦略の限界を分析することができます。
簡単な一貫性チューニング(ECT:Easy Consistency Tuning)に基づいて,スコアアイデンティティを用いた分散学習を取り入れた安定一貫性チューニング(SCT:Stable Consistency Tuning)を提案する。
SCTはCIFAR-10やImageNet-64などのベンチマークで大幅なパフォーマンス向上を実現している。
ImageNet-64では、SCTは一貫性モデルのための新しいSoTAである1ステップのFID 2.42と2ステップのFID 1.55を達成する。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Decouple-Then-Merge: Towards Better Training for Diffusion Models [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
この研究はDeouple-then-Merge(DeMe)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Improving Consistency Models with Generator-Induced Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,現在訓練されているモデルから得られた雑音データを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。