Fugu-MT 論文翻訳(概要): Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation

論文の概要: Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation

arxiv url: http://arxiv.org/abs/2303.00848v7
Date: Mon, 25 Sep 2023 21:44:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 18:04:48.085006
Title: Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation
Title（参考訳）: 簡易データ拡張によるエルボとしての拡散目標の理解
Authors: Diederik P. Kingma and Ruiqi Gao
Abstract要約: 拡散モデルの対象がエビデンス下界(ELBO)と密接な関係にあることを示す。実験では,新しいモノトニック重み付けを探索し,その有効性を実証する。
参考スコア（独自算出の注目度）: 22.465890471471834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that typically look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.
Abstract（参考訳）: 最も高い知覚品質を達成するために、最先端拡散モデルは、通常最大可能性とエビデンス下界(ELBO)の目的とは大きく異なる目的によって最適化される。本研究では,拡散モデルの目的がELBOと密接に関連していることを明らかにする。具体的には,様々な騒音レベルにおけるelboの重み付き積分に共通に使用される拡散モデルがすべて等価であることを示し,その重み付けが使用する特定の目的に依存することを示した。単調な重み付けの条件下では、接続はさらに近くなり、拡散の目的はELBOと等しくなり、単純なデータ拡張、すなわちガウス雑音摂動と結合する。この条件は、多くの最先端拡散モデルに当てはまることを示す。実験では、新しい単調重み付けを探索し、その効果を実証し、高分解能imagenetベンチマークで最先端のfidスコアを得る。

関連論文リスト

Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文参考訳（メタデータ） (2025-05-22T10:01:59Z)
Capturing Conditional Dependence via Auto-regressive Diffusion Models [24.26847446193959]
本研究では, 自己回帰(AR)拡散モデルの有効性について検討した。理論的な結果は, 典型的な拡散モデルと比較して, データ条件分布の近似において, 差が小さく, サンプルを生成できることを示唆している。また、データに条件依存構造が明確な場合、AR拡散モデルがそのような構造を捕捉するのに対し、バニラDDPMはそれを行うことができないことを示す実験結果も提供する。
論文参考訳（メタデータ） (2025-04-30T04:57:12Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文参考訳（メタデータ） (2024-09-17T16:58:52Z)
A Score-Based Density Formula, with Applications in Diffusion Generative Models [6.76974373198208]
スコアベース生成モデル(SGM)は、生成モデリングの分野に革命をもたらし、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。実験的な進歩にもかかわらず、ログライクリッド上でのエビデンスローバウンド(ELBO)の最適化がDDPMなどの拡散生成モデルの訓練に有効である理由に関する理論的根拠はほとんど未解明のままである。
論文参考訳（メタデータ） (2024-08-29T17:59:07Z)
Diffusion Models in Low-Level Vision: A Survey [82.77962165415153]
拡散モデルに基づくソリューションは、優れた品質と多様性のサンプルを作成する能力で広く称賛されている。本稿では,3つの一般化拡散モデリングフレームワークを提案し,それらと他の深層生成モデルとの相関関係について検討する。医療、リモートセンシング、ビデオシナリオなど、他のタスクに適用された拡張拡散モデルについて要約する。
論文参考訳（メタデータ） (2024-06-17T01:49:27Z)
Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-01-09T03:42:08Z)
Soft Mixture Denoising: Beyond the Expressive Bottleneck of Diffusion Models [76.46246743508651]
我々は,現在の拡散モデルが後方認知において表現力のあるボトルネックを持っていることを示した。本稿では,後方復調のための表現的かつ効率的なモデルであるソフトミキシング・デノナイジング(SMD)を導入する。
論文参考訳（メタデータ） (2023-09-25T12:03:32Z)
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文参考訳（メタデータ） (2023-05-26T16:38:48Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Convergence of denoising diffusion models under the manifold hypothesis [3.096615629099617]
デノイング拡散モデル(Denoising diffusion model)は、画像および音声合成における最先端性能を示す最近の生成モデルのクラスである。本稿では、拡散モデルに対するより一般的な設定での最初の収束結果を提供する。
論文参考訳（メタデータ） (2022-08-10T12:50:47Z)
Non-Uniform Diffusion Models [0.8602553195689513]
非一様拡散は、マルチスケール正規化フローと似た構造を持つマルチスケール拡散モデルをもたらすことを示す。実験により, 同一あるいは少ないトレーニング時間において, マルチスケール拡散モデルでは, 標準均一拡散モデルよりも優れたFIDスコアが得られることがわかった。また, 非一様拡散は, 条件付きスコア関数に対して, 最先端の条件付きデノナイジング推定器と同等の性能を達成するための新しい推定器となることを示す。
論文参考訳（メタデータ） (2022-07-20T09:59:28Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。