論文の概要: Diffusion Models With Learned Adaptive Noise
- arxiv url: http://arxiv.org/abs/2312.13236v1
- Date: Wed, 20 Dec 2023 18:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 14:44:26.939912
- Title: Diffusion Models With Learned Adaptive Noise
- Title(参考訳): 適応雑音を学習した拡散モデル
- Authors: Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov
- Abstract要約: 画像間で異なる速度でガウス雑音を適用する学習拡散過程を提案する。
MuLAN は CIFAR-10 と ImageNet の密度推定の最先端を新たに設定する。
- 参考スコア(独自算出の注目度): 13.688761754326356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained traction as powerful algorithms for synthesizing
high-quality images. Central to these algorithms is the diffusion process,
which maps data to noise according to equations inspired by thermodynamics and
can significantly impact performance. A widely held assumption is that the ELBO
objective of a diffusion model is invariant to the noise process (Kingma et
al.,2021). In this work, we dispel this assumption -- we propose multivariate
learned adaptive noise (MuLAN), a learned diffusion process that applies
Gaussian noise at different rates across an image. Our method consists of three
components -- a multivariate noise schedule, instance-conditional diffusion,
and auxiliary variables -- which ensure that the learning objective is no
longer invariant to the choice of the noise schedule as in previous works. Our
work is grounded in Bayesian inference and casts the learned diffusion process
as an approximate variational posterior that yields a tighter lower bound on
marginal likelihood. Empirically, MuLAN sets a new state-of-the-art in density
estimation on CIFAR-10 and ImageNet compared to classical diffusion. Code is
available at https://github.com/s-sahoo/MuLAN
- Abstract(参考訳): 拡散モデルは高品質な画像を合成するための強力なアルゴリズムとして注目を集めている。
これらのアルゴリズムの中心は拡散過程であり、熱力学に触発された方程式に従ってデータをノイズにマッピングし、性能に大きな影響を与える。
拡散モデルのelboの目的が雑音過程に不変であるという仮定が広く支持されている(kingma et al.,2021)。
本研究では,画像間の異なるレートでガウス雑音を適用する学習拡散過程である多変量学習適応雑音 (MuLAN) を,この仮定から排除する。本手法は,学習対象が従来手法のようにノイズスケジュールの選択に不変でないことを保証するために,多変量雑音スケジュール,インスタンス条件拡散,補助変数の3つの成分から構成される。
我々の研究はベイズ推定に基礎を置いており、学習された拡散過程を近似的な変分後部として、限界確率でより厳密な下界を生み出す。
経験的に、MuLANは古典拡散と比較してCIFAR-10とImageNetの密度推定の最先端を新たに設定している。
コードはhttps://github.com/s-sahoo/MuLANで入手できる。
関連論文リスト
- Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。
実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-23T02:52:53Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。
提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文 参考訳(メタデータ) (2021-10-10T10:46:31Z) - Non Gaussian Denoising Diffusion Models [91.22679787578438]
ガンマ分布からのノイズは、画像および音声生成のための改善された結果をもたらすことを示す。
また,拡散過程におけるガウス雑音の混合を用いることで,単一分布に基づく拡散過程における性能が向上することを示す。
論文 参考訳(メタデータ) (2021-06-14T16:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。