論文の概要: One-step Diffusion Models with $f$-Divergence Distribution Matching
- arxiv url: http://arxiv.org/abs/2502.15681v1
- Date: Fri, 21 Feb 2025 18:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:34.244923
- Title: One-step Diffusion Models with $f$-Divergence Distribution Matching
- Title(参考訳): $f$-divergence Distribution Matching を用いた一段階拡散モデル
- Authors: Yilun Xu, Weili Nie, Arash Vahdat,
- Abstract要約: 近年の研究では,多段階拡散モデルを変分点蒸留により単一段階の学生生成器に蒸留している。
これらの手法は、モード探索として知られている分布マッチングにKL(Kulback-Leibler)の逆偏差を用いる。
本稿では,新しい$f$-divergence最小化フレームワークを用いて分布マッチング手法を一般化する。
- 参考スコア(独自算出の注目度): 41.21390253053562
- License:
- Abstract: Sampling from diffusion models involves a slow iterative process that hinders their practical deployment, especially for interactive applications. To accelerate generation speed, recent approaches distill a multi-step diffusion model into a single-step student generator via variational score distillation, which matches the distribution of samples generated by the student to the teacher's distribution. However, these approaches use the reverse Kullback-Leibler (KL) divergence for distribution matching which is known to be mode seeking. In this paper, we generalize the distribution matching approach using a novel $f$-divergence minimization framework, termed $f$-distill, that covers different divergences with different trade-offs in terms of mode coverage and training variance. We derive the gradient of the $f$-divergence between the teacher and student distributions and show that it is expressed as the product of their score differences and a weighting function determined by their density ratio. This weighting function naturally emphasizes samples with higher density in the teacher distribution, when using a less mode-seeking divergence. We observe that the popular variational score distillation approach using the reverse-KL divergence is a special case within our framework. Empirically, we demonstrate that alternative $f$-divergences, such as forward-KL and Jensen-Shannon divergences, outperform the current best variational score distillation methods across image generation tasks. In particular, when using Jensen-Shannon divergence, $f$-distill achieves current state-of-the-art one-step generation performance on ImageNet64 and zero-shot text-to-image generation on MS-COCO. Project page: https://research.nvidia.com/labs/genair/f-distill
- Abstract(参考訳): 拡散モデルからのサンプリングは、特にインタラクティブなアプリケーションにおいて、実践的なデプロイメントを妨げる、遅い反復プロセスを伴う。
生成速度を高速化するため、近年の研究では、学生が生成したサンプルの分布と教師の分布とを一致させる変分スコア蒸留を用いて、多段階拡散モデルを1段階の学生生成装置に蒸留している。
しかし、これらの手法はモード探索として知られている分布マッチングにKL(Kulback-Leibler)の逆偏差を用いる。
本稿では,新しい$f$-divergence最小化フレームワークである$f$-distillを用いて,モードカバレッジとトレーニング分散の観点から異なるトレードオフを持つ分散を網羅する分布マッチング手法を一般化する。
教師と生徒の分布の$f$-divergenceの勾配を導出し、スコア差の積として表現され、密度比によって決定される重み付け関数を示す。
この重み付け関数は、モード探索のばらつきが少ない場合、教師分布の密度が高いサンプルを自然に強調する。
逆KLの発散を用いた一般的な変分点蒸留法は,本フレームワークの特別な場合である。
実験により,フォワードKLやジェンセン・シャノン発散といった代替の$f$-divergencesが,画像生成タスクにおいて,現在の最適な変分スコア蒸留法より優れていることを示す。
特に、Jensen-Shannon分散を使用する場合、$f$-distillはImageNet64の最先端のワンステップ生成性能とMS-COCOのゼロショットテキスト・ツー・イメージ生成を実現する。
プロジェクトページ: https://research.nvidia.com/labs/genair/f-distill
関連論文リスト
- Non-Normal Diffusion Models [3.5534933448684134]
拡散モデルは、データをノイズに変える過程を漸進的に反転させることでサンプルを生成する。
ステップサイズが 0 となると、逆過程はこれらの増分分布に不変であることを示す。
本稿では,これらのモデルが標準画像データセット上での密度推定および生成モデリングタスクに与える影響を実証する。
論文 参考訳(メタデータ) (2024-12-10T21:31:12Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
本報告では,明示的な次元の一般スコアミスマッチ拡散サンプリング器を用いた最初の性能保証について述べる。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Training Neural Samplers with Reverse Diffusive KL Divergence [36.549460449020906]
非正規化密度関数からサンプルを得るための生成モデルを訓練することは、機械学習において重要かつ困難な課題である。
従来の訓練方法は、そのトラクタビリティのため、逆のKL(Kulback-Leibler)の分岐に依存することが多い。
モデルおよび対象密度の拡散軌跡に沿った逆KLの最小化を提案する。
本手法はボルツマン分布のサンプリング性能を向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-16T11:08:02Z) - DDIL: Improved Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。