論文の概要: Improved Techniques for Training Consistency Models
- arxiv url: http://arxiv.org/abs/2310.14189v1
- Date: Sun, 22 Oct 2023 05:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:25:14.835375
- Title: Improved Techniques for Training Consistency Models
- Title(参考訳): 一貫性モデルのトレーニングのための改良技術
- Authors: Yang Song and Prafulla Dhariwal
- Abstract要約: 本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
- 参考スコア(独自算出の注目度): 13.475711217989975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency models are a nascent family of generative models that can sample
high quality data in one step without the need for adversarial training.
Current consistency models achieve optimal sample quality by distilling from
pre-trained diffusion models and employing learned metrics such as LPIPS.
However, distillation limits the quality of consistency models to that of the
pre-trained diffusion model, and LPIPS causes undesirable bias in evaluation.
To tackle these challenges, we present improved techniques for consistency
training, where consistency models learn directly from data without
distillation. We delve into the theory behind consistency training and identify
a previously overlooked flaw, which we address by eliminating Exponential
Moving Average from the teacher consistency model. To replace learned metrics
like LPIPS, we adopt Pseudo-Huber losses from robust statistics. Additionally,
we introduce a lognormal noise schedule for the consistency training objective,
and propose to double total discretization steps every set number of training
iterations. Combined with better hyperparameter tuning, these modifications
enable consistency models to achieve FID scores of 2.51 and 3.25 on CIFAR-10
and ImageNet $64\times 64$ respectively in a single sampling step. These scores
mark a 3.5$\times$ and 4$\times$ improvement compared to prior consistency
training approaches. Through two-step sampling, we further reduce FID scores to
2.24 and 2.77 on these two datasets, surpassing those obtained via distillation
in both one-step and two-step settings, while narrowing the gap between
consistency models and other state-of-the-art generative models.
- Abstract(参考訳): 一貫性モデル(consistency model)は、高品質なデータを1ステップでサンプリング可能な、新たな生成モデルのファミリである。
現在の整合性モデルは、事前訓練された拡散モデルから蒸留し、LPIPSなどの学習指標を用いて最適なサンプル品質を実現する。
しかし, 蒸留法では, 整合性モデルの品質を事前学習拡散モデルに制限し, LPIPSは望ましくないバイアスを引き起こす。
これらの課題に対処するため、我々は、一貫性モデルが蒸留なしで直接データから学習する一貫性トレーニングの手法を改良した。
我々は、一貫性トレーニングの背後にある理論を掘り下げ、教師の一貫性モデルから指数移動平均を排除し、これまで見過ごされていた欠陥を特定します。
LPIPSのような学習メトリクスを置き換えるために、ロバストな統計からPseudo-Huberの損失を採用する。
さらに,対数正規ノイズスケジュールを一貫性トレーニング目標に導入し,各セットのトレーニングイテレーション毎に全離散化ステップを2倍にすることを提案する。
ハイパーパラメータチューニングの改善と組み合わせることで、一貫性モデルによって、cifar-10とimagenetで2.51と3.25のfidスコアを1回のサンプリングステップでそれぞれ6,4\times 64$で達成することができる。
これらのスコアは、以前の一貫性トレーニングアプローチと比べて3.5$\times$と4$\times$の改善を示している。
2段階のサンプリングにより、これらの2つのデータセット上でFIDスコアを2.24と2.77に減らし、1段階および2段階の蒸留により得られたスコアを上回り、一貫性モデルと他の最先端生成モデルとのギャップを狭める。
関連論文リスト
- Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density [70.14884528360199]
本稿では, GAN や拡散モデルなどのバイアス深層生成モデルへのアプローチを導入し, 忠実度の向上や多様性の向上を図ったデータ生成手法を提案する。
提案手法では, 擬似密度という, 個人サンプルの新たな測定基準を用いて, トレーニングとデータ生成の分布を操作する。
論文 参考訳(メタデータ) (2024-07-11T16:46:04Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Self-Distillation Mixup Training for Non-autoregressive Neural Machine
Translation [13.527174969073073]
非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善する。
生データに悪影響を与える一方で、ほとんどのNATモデルは、AT教師モデルによって生成された蒸留データに基づいて学生モデルとして訓練されている。
実データ上でモデルを事前学習し、事前学習したモデル自体による蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再学習する自己蒸留混合訓練(SDM)が有効な訓練戦略である。
論文 参考訳(メタデータ) (2021-12-22T03:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。