論文の概要: Variational Diffusion Models
- arxiv url: http://arxiv.org/abs/2107.00630v1
- Date: Thu, 1 Jul 2021 17:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 16:01:53.297960
- Title: Variational Diffusion Models
- Title(参考訳): 変分拡散モデル
- Authors: Diederik P. Kingma, Tim Salimans, Ben Poole, Jonathan Ho
- Abstract要約: 本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
- 参考スコア(独自算出の注目度): 37.365990476012925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have demonstrated a capacity for
perceptually impressive synthesis, but can they also be great likelihood-based
models? We answer this in the affirmative, and introduce a family of
diffusion-based generative models that obtain state-of-the-art likelihoods on
standard image density estimation benchmarks. Unlike other diffusion-based
models, our method allows for efficient optimization of the noise schedule
jointly with the rest of the model. We show that the variational lower bound
(VLB) simplifies to a remarkably short expression in terms of the
signal-to-noise ratio of the diffused data, thereby improving our theoretical
understanding of this model class. Using this insight, we prove an equivalence
between several models proposed in the literature. In addition, we show that
the continuous-time VLB is invariant to the noise schedule, except for the
signal-to-noise ratio at its endpoints. This enables us to learn a noise
schedule that minimizes the variance of the resulting VLB estimator, leading to
faster optimization. Combining these advances with architectural improvements,
we obtain state-of-the-art likelihoods on image density estimation benchmarks,
outperforming autoregressive models that have dominated these benchmarks for
many years, with often significantly faster optimization. In addition, we show
how to turn the model into a bits-back compression scheme, and demonstrate
lossless compression rates close to the theoretical optimum.
- Abstract(参考訳): 拡散に基づく生成モデルは知覚的に印象的な合成能力を示したが、それらは大きな可能性に基づくモデルにもなり得るだろうか?
これを肯定的に答え、標準画像密度推定ベンチマークで最先端の確率を求める拡散に基づく生成モデル群を導入する。
本手法は,他の拡散モデルと異なり,他のモデルと協調してノイズスケジュールの効率的な最適化を可能にする。
拡散されたデータの信号対雑音比の観点から,変分下界(VLB)が著しく短い表現に単純化されることを示し,このモデルクラスの理論的理解を改善した。
この知見を用いて,文献に提案されている複数のモデル間の等価性を証明する。
さらに、連続時間VLBは、終端における信号対雑音比を除いて、ノイズスケジュールに不変であることを示す。
これにより、VLB推定器の分散を最小限に抑えるノイズスケジュールを学習し、より高速な最適化を実現することができる。
これらの進歩とアーキテクチャの改善を組み合わせることで、画像密度推定ベンチマークの最先端の可能性を得ることができ、これらのベンチマークを長年支配してきた自己回帰モデルよりも優れている。
さらに、モデルをビットバック圧縮スキームに変換する方法を示し、理論的な最適値に近い無損失圧縮率を示す。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - Fast Diffusion EM: a diffusion model for blind inverse problems with
application to deconvolution [0.0]
現在の手法では、劣化が知られており、復元と多様性の点で印象的な結果をもたらすと仮定している。
本研究では、これらのモデルの効率を活用し、復元された画像と未知のパラメータを共同で推定する。
本手法は,拡散モデルから抽出したサンプルを用いて,問題の対数類似度を近似し,未知のモデルパラメータを推定する方法とを交互に比較する。
論文 参考訳(メタデータ) (2023-09-01T06:47:13Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z) - Denoising Diffusion Probabilistic Models [91.94962645056896]
拡散確率モデルを用いて高品質な画像合成結果を示す。
本研究は,拡散確率モデルとランゲヴィン力学と整合したデノイングスコアとの新たな接続に基づいて設計した重み付き変分境界のトレーニングにより得られた。
論文 参考訳(メタデータ) (2020-06-19T17:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。