論文の概要: Improved Techniques for Training Consistency Models
- arxiv url: http://arxiv.org/abs/2310.14189v1
- Date: Sun, 22 Oct 2023 05:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:25:14.835375
- Title: Improved Techniques for Training Consistency Models
- Title(参考訳): 一貫性モデルのトレーニングのための改良技術
- Authors: Yang Song and Prafulla Dhariwal
- Abstract要約: 本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
- 参考スコア(独自算出の注目度): 13.475711217989975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency models are a nascent family of generative models that can sample
high quality data in one step without the need for adversarial training.
Current consistency models achieve optimal sample quality by distilling from
pre-trained diffusion models and employing learned metrics such as LPIPS.
However, distillation limits the quality of consistency models to that of the
pre-trained diffusion model, and LPIPS causes undesirable bias in evaluation.
To tackle these challenges, we present improved techniques for consistency
training, where consistency models learn directly from data without
distillation. We delve into the theory behind consistency training and identify
a previously overlooked flaw, which we address by eliminating Exponential
Moving Average from the teacher consistency model. To replace learned metrics
like LPIPS, we adopt Pseudo-Huber losses from robust statistics. Additionally,
we introduce a lognormal noise schedule for the consistency training objective,
and propose to double total discretization steps every set number of training
iterations. Combined with better hyperparameter tuning, these modifications
enable consistency models to achieve FID scores of 2.51 and 3.25 on CIFAR-10
and ImageNet $64\times 64$ respectively in a single sampling step. These scores
mark a 3.5$\times$ and 4$\times$ improvement compared to prior consistency
training approaches. Through two-step sampling, we further reduce FID scores to
2.24 and 2.77 on these two datasets, surpassing those obtained via distillation
in both one-step and two-step settings, while narrowing the gap between
consistency models and other state-of-the-art generative models.
- Abstract(参考訳): 一貫性モデル(consistency model)は、高品質なデータを1ステップでサンプリング可能な、新たな生成モデルのファミリである。
現在の整合性モデルは、事前訓練された拡散モデルから蒸留し、LPIPSなどの学習指標を用いて最適なサンプル品質を実現する。
しかし, 蒸留法では, 整合性モデルの品質を事前学習拡散モデルに制限し, LPIPSは望ましくないバイアスを引き起こす。
これらの課題に対処するため、我々は、一貫性モデルが蒸留なしで直接データから学習する一貫性トレーニングの手法を改良した。
我々は、一貫性トレーニングの背後にある理論を掘り下げ、教師の一貫性モデルから指数移動平均を排除し、これまで見過ごされていた欠陥を特定します。
LPIPSのような学習メトリクスを置き換えるために、ロバストな統計からPseudo-Huberの損失を採用する。
さらに,対数正規ノイズスケジュールを一貫性トレーニング目標に導入し,各セットのトレーニングイテレーション毎に全離散化ステップを2倍にすることを提案する。
ハイパーパラメータチューニングの改善と組み合わせることで、一貫性モデルによって、cifar-10とimagenetで2.51と3.25のfidスコアを1回のサンプリングステップでそれぞれ6,4\times 64$で達成することができる。
これらのスコアは、以前の一貫性トレーニングアプローチと比べて3.5$\times$と4$\times$の改善を示している。
2段階のサンプリングにより、これらの2つのデータセット上でFIDスコアを2.24と2.77に減らし、1段階および2段階の蒸留により得られたスコアを上回り、一貫性モデルと他の最先端生成モデルとのギャップを狭める。
関連論文リスト
- Poisson flow consistency models for low-dose CT image denoising [3.6218104434936658]
本稿では,Poisson Flow Generative Model (PFGM)++で得られる柔軟性と,高品質で単一ステップの一貫性モデルのサンプリングを併用した新しい画像復調手法を提案する。
この結果から,PFGM++における拡張変数の次元性であるハイパーパラメータDのチューニングの柔軟性が,一貫性モデルよりも優れることが示唆された。
論文 参考訳(メタデータ) (2024-02-13T01:39:56Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - ACT: Adversarial Consistency Models [62.16255121164223]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10, ImageNet 64$times$64, LSUN Cat 256$times$256データセットにおけるFIDスコアの改善を実現した。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation [13.527174969073073]
非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善する。
生データに悪影響を与える一方で、ほとんどのNATモデルは、AT教師モデルによって生成された蒸留データに基づいて学生モデルとして訓練されている。
実データ上でモデルを事前学習し、事前学習したモデル自体による蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再学習する自己蒸留混合訓練(SDM)が有効な訓練戦略である。
論文 参考訳(メタデータ) (2021-12-22T03:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。