論文の概要: Diffusion Models With Learned Adaptive Noise
- arxiv url: http://arxiv.org/abs/2312.13236v2
- Date: Tue, 4 Jun 2024 20:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:45:21.326870
- Title: Diffusion Models With Learned Adaptive Noise
- Title(参考訳): 適応雑音を学習した拡散モデル
- Authors: Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov,
- Abstract要約: 画像間で異なる速度で雑音を印加する学習拡散過程を提案する。
MuLAN は CIFAR-10 と ImageNet の密度推定の最先端を新たに設定する。
- 参考スコア(独自算出の注目度): 12.530583016267768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained traction as powerful algorithms for synthesizing high-quality images. Central to these algorithms is the diffusion process, a set of equations which maps data to noise in a way that can significantly affect performance. In this paper, we explore whether the diffusion process can be learned from data. Our work is grounded in Bayesian inference and seeks to improve log-likelihood estimation by casting the learned diffusion process as an approximate variational posterior that yields a tighter lower bound (ELBO) on the likelihood. A widely held assumption is that the ELBO is invariant to the noise process: our work dispels this assumption and proposes multivariate learned adaptive noise (MULAN), a learned diffusion process that applies noise at different rates across an image. Specifically, our method relies on a multivariate noise schedule that is a function of the data to ensure that the ELBO is no longer invariant to the choice of the noise schedule as in previous works. Empirically, MULAN sets a new state-of-the-art in density estimation on CIFAR-10 and ImageNet and reduces the number of training steps by 50%. Code is available at https://github.com/s-sahoo/MuLAN
- Abstract(参考訳): 拡散モデルは高品質な画像を合成するための強力なアルゴリズムとして注目を集めている。
これらのアルゴリズムの中心は拡散過程であり、これはデータをノイズにマッピングする一連の方程式であり、性能に大きな影響を与える。
本稿では,拡散過程がデータから学べるかどうかを考察する。
我々の研究はベイズ推定に基礎を置いており、学習した拡散過程を、より強い下界(ELBO)をもたらす近似変分後部としてキャストすることで、ログ類似度の推定を改善することを目指している。
我々の研究は、この仮定を排除し、多変量学習適応雑音(MULAN)を提案する。
具体的には、ELBOが従来のようなノイズスケジュール選択に不変でないことを保証するために、データの関数である多変量ノイズスケジュールに依存する。
MULANは、CIFAR-10とImageNetに新しい最先端の密度推定を設定し、トレーニングステップの数を50%削減する。
コードはhttps://github.com/s-sahoo/MuLANで入手できる。
関連論文リスト
- Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
現在の方法では、各画像がノイズ空間全体に拡散し、ノイズ層内の各点で全ての画像が混合される。
Inmiscible Diffusionを提案する。これはノイズデータマッピングのランダムな混合を改善するためのシンプルで効果的な方法である。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - SVNR: Spatially-variant Noise Removal with Denoising Diffusion [43.2405873681083]
本稿では,より現実的で空間的変動のある雑音モデルを想定した,微分拡散の新たな定式化について述べる。
実験では,強い拡散モデルベースラインに対するアプローチの利点と,最先端の単一画像復号法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-28T09:32:00Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。
提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文 参考訳(メタデータ) (2021-10-10T10:46:31Z) - Non Gaussian Denoising Diffusion Models [91.22679787578438]
ガンマ分布からのノイズは、画像および音声生成のための改善された結果をもたらすことを示す。
また,拡散過程におけるガウス雑音の混合を用いることで,単一分布に基づく拡散過程における性能が向上することを示す。
論文 参考訳(メタデータ) (2021-06-14T16:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。