論文の概要: Understanding Diffusion Objectives as the ELBO with Simple Data
Augmentation
- arxiv url: http://arxiv.org/abs/2303.00848v7
- Date: Mon, 25 Sep 2023 21:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 18:04:48.085006
- Title: Understanding Diffusion Objectives as the ELBO with Simple Data
Augmentation
- Title(参考訳): 簡易データ拡張によるエルボとしての拡散目標の理解
- Authors: Diederik P. Kingma and Ruiqi Gao
- Abstract要約: 拡散モデルの対象がエビデンス下界(ELBO)と密接な関係にあることを示す。
実験では,新しいモノトニック重み付けを探索し,その有効性を実証する。
- 参考スコア(独自算出の注目度): 22.465890471471834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve the highest perceptual quality, state-of-the-art diffusion models
are optimized with objectives that typically look very different from the
maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this
work, we reveal that diffusion model objectives are actually closely related to
the ELBO.
Specifically, we show that all commonly used diffusion model objectives
equate to a weighted integral of ELBOs over different noise levels, where the
weighting depends on the specific objective used. Under the condition of
monotonic weighting, the connection is even closer: the diffusion objective
then equals the ELBO, combined with simple data augmentation, namely Gaussian
noise perturbation. We show that this condition holds for a number of
state-of-the-art diffusion models.
In experiments, we explore new monotonic weightings and demonstrate their
effectiveness, achieving state-of-the-art FID scores on the high-resolution
ImageNet benchmark.
- Abstract(参考訳): 最も高い知覚品質を達成するために、最先端拡散モデルは、通常最大可能性とエビデンス下界(ELBO)の目的とは大きく異なる目的によって最適化される。
本研究では,拡散モデルの目的がELBOと密接に関連していることを明らかにする。
具体的には,様々な騒音レベルにおけるelboの重み付き積分に共通に使用される拡散モデルがすべて等価であることを示し,その重み付けが使用する特定の目的に依存することを示した。
単調な重み付けの条件下では、接続はさらに近くなり、拡散の目的はELBOと等しくなり、単純なデータ拡張、すなわちガウス雑音摂動と結合する。
この条件は、多くの最先端拡散モデルに当てはまることを示す。
実験では、新しい単調重み付けを探索し、その効果を実証し、高分解能imagenetベンチマークで最先端のfidスコアを得る。
関連論文リスト
- Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - A Score-Based Density Formula, with Applications in Diffusion Generative Models [6.76974373198208]
スコアベース生成モデル(SGM)は、生成モデリングの分野に革命をもたらし、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。
実験的な進歩にもかかわらず、ログライクリッド上でのエビデンスローバウンド(ELBO)の最適化がDDPMなどの拡散生成モデルの訓練に有効である理由に関する理論的根拠はほとんど未解明のままである。
論文 参考訳(メタデータ) (2024-08-29T17:59:07Z) - Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。
本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。
医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文 参考訳(メタデータ) (2024-06-17T01:49:27Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion
Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。
本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文 参考訳(メタデータ) (2023-09-25T12:03:32Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Convergence of denoising diffusion models under the manifold hypothesis [3.096615629099617]
デノイング拡散モデル(Denoising diffusion model)は、画像および音声合成における最先端性能を示す最近の生成モデルのクラスである。
本稿では、拡散モデルに対するより一般的な設定での最初の収束結果を提供する。
論文 参考訳(メタデータ) (2022-08-10T12:50:47Z) - Non-Uniform Diffusion Models [0.8602553195689513]
非一様拡散は、マルチスケール正規化フローと似た構造を持つマルチスケール拡散モデルをもたらすことを示す。
実験により, 同一あるいは少ないトレーニング時間において, マルチスケール拡散モデルでは, 標準均一拡散モデルよりも優れたFIDスコアが得られることがわかった。
また, 非一様拡散は, 条件付きスコア関数に対して, 最先端の条件付きデノナイジング推定器と同等の性能を達成するための新しい推定器となることを示す。
論文 参考訳(メタデータ) (2022-07-20T09:59:28Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。