論文の概要: Truncated Consistency Models
- arxiv url: http://arxiv.org/abs/2410.14895v1
- Date: Fri, 18 Oct 2024 22:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:53.683875
- Title: Truncated Consistency Models
- Title(参考訳): 縮合一貫性モデル
- Authors: Sangyun Lee, Yilun Xu, Tomas Geffner, Giulia Fanti, Karsten Kreis, Arash Vahdat, Weili Nie,
- Abstract要約: トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
- 参考スコア(独自算出の注目度): 57.50243901368328
- License:
- Abstract: Consistency models have recently been introduced to accelerate sampling from diffusion models by directly predicting the solution (i.e., data) of the probability flow ODE (PF ODE) from initial noise. However, the training of consistency models requires learning to map all intermediate points along PF ODE trajectories to their corresponding endpoints. This task is much more challenging than the ultimate objective of one-step generation, which only concerns the PF ODE's noise-to-data mapping. We empirically find that this training paradigm limits the one-step generation performance of consistency models. To address this issue, we generalize consistency training to the truncated time range, which allows the model to ignore denoising tasks at earlier time steps and focus its capacity on generation. We propose a new parameterization of the consistency function and a two-stage training procedure that prevents the truncated-time training from collapsing to a trivial solution. Experiments on CIFAR-10 and ImageNet $64\times64$ datasets show that our method achieves better one-step and two-step FIDs than the state-of-the-art consistency models such as iCT-deep, using more than 2$\times$ smaller networks. Project page: https://truncated-cm.github.io/
- Abstract(参考訳): 近年、拡散モデルからのサンプリングを加速するために、確率フローODE(PF ODE)の解(すなわちデータ)を初期ノイズから直接予測することで、一貫性モデルが導入された。
しかしながら、一貫性モデルのトレーニングでは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする必要がある。
このタスクは、PF ODEのノイズ・ツー・データマッピングのみに関する1ステップ生成の最終的な目的よりもはるかに難しい。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
この問題に対処するために、我々は整合性トレーニングをトランクされた時間範囲に一般化し、モデルが早期のタスクを無視し、生成能力に集中できるようにする。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
CIFAR-10 と ImageNet 6,4\times64$ データセットを用いた実験では,2$\times$ より小さなネットワークを用いて,iCT-deep のような最先端の一貫性モデルよりも1ステップと2ステップの FID が優れていることが示された。
プロジェクトページ: https://truncated-cm.github.io/
関連論文リスト
- Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - Score Mismatching for Generative Modeling [4.413162309652114]
そこで我々は,一段階サンプリングを用いた新しいスコアベースモデルを提案する。
我々は、スコアネットワークから逆転した勾配で全ての時間ステップを圧縮するようにスタンドアロンのジェネレータを訓練する。
生成器に有意義な勾配を与えるため、スコアネットワークは実データ分布を同時にマッチングし、偽データ分布を誤マッチするように訓練される。
論文 参考訳(メタデータ) (2023-09-20T03:47:12Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。