Fugu-MT 論文翻訳(概要): Diffusion Models With Learned Adaptive Noise

論文の概要: Diffusion Models With Learned Adaptive Noise

arxiv url: http://arxiv.org/abs/2312.13236v3
Date: Sun, 10 Nov 2024 20:02:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.140205
Title: Diffusion Models With Learned Adaptive Noise
Title（参考訳）: 適応雑音を学習した拡散モデル
Authors: Subham Sekhar Sahoo, Aaron Gokaslan, Chris De Sa, Volodymyr Kuleshov,
Abstract要約: 本稿では,拡散過程がデータから学べるかどうかを考察する。広く信じられている仮定は、ELBOはノイズプロセスに不変であるということである。画像間で異なる速度でノイズを印加する学習拡散過程であるMULANを提案する。
参考スコア（独自算出の注目度）: 12.530583016267768
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have gained traction as powerful algorithms for synthesizing high-quality images. Central to these algorithms is the diffusion process, a set of equations which maps data to noise in a way that can significantly affect performance. In this paper, we explore whether the diffusion process can be learned from data. Our work is grounded in Bayesian inference and seeks to improve log-likelihood estimation by casting the learned diffusion process as an approximate variational posterior that yields a tighter lower bound (ELBO) on the likelihood. A widely held assumption is that the ELBO is invariant to the noise process: our work dispels this assumption and proposes multivariate learned adaptive noise (MULAN), a learned diffusion process that applies noise at different rates across an image. Specifically, our method relies on a multivariate noise schedule that is a function of the data to ensure that the ELBO is no longer invariant to the choice of the noise schedule as in previous works. Empirically, MULAN sets a new state-of-the-art in density estimation on CIFAR-10 and ImageNet and reduces the number of training steps by 50%. We provide the code, along with a blog post and video tutorial on the project page: https://s-sahoo.com/MuLAN
Abstract（参考訳）: 拡散モデルは高品質な画像を合成するための強力なアルゴリズムとして注目を集めている。これらのアルゴリズムの中心は拡散過程であり、これはデータをノイズにマッピングする一連の方程式であり、性能に大きな影響を与える。本稿では,拡散過程がデータから学べるかどうかを考察する。我々の研究はベイズ推定に基礎を置いており、学習した拡散過程を、より強い下界(ELBO)をもたらす近似変分後部としてキャストすることで、ログ類似度の推定を改善することを目指している。我々の研究は、この仮定を排除し、多変量学習適応雑音(MULAN)を提案する。具体的には、ELBOが従来のようなノイズスケジュール選択に不変でないことを保証するために、データの関数である多変量ノイズスケジュールに依存する。 MULANは、CIFAR-10とImageNetに新しい最先端の密度推定を設定し、トレーニングステップの数を50%削減する。私たちは、プロジェクトページのブログ投稿とビデオチュートリアルとともに、コードを提供しています。

関連論文リスト

Scaling Behavior of Discrete Diffusion Language Models [74.72926629897636]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文参考訳（メタデータ） (2025-12-11T17:54:10Z)
Noise Aggregation Analysis Driven by Small-Noise Injection: Efficient Membership Inference for Diffusion Models [19.763802072516228]
主要な関心事は、モデルトレーニングプロセスで特定のデータサンプルが使用されたかどうかを判断しようとするメンバシップ推論攻撃である。本稿では,拡散モデルに対する効率的なメンバーシップ推論手法を提案する。また,大規模なテキスト・画像拡散モデルに直面する場合,ASRとAUCの攻撃効果も向上する。
論文参考訳（メタデータ） (2025-10-18T16:28:48Z)
FreSca: Unveiling the Scaling Space in Diffusion Models [52.20473039489599]
拡散モデルは、主にタスク固有の情報をエンコードするノイズ予測と、調整可能なスケーリングを可能にするガイダンスを通じて、画像タスクに対して印象的な制御性を提供する。条件/条件付き雑音予測の違いがキーセマンティック情報を伝達するインバージョンベースの編集から始めることで、この空間を考察する。我々のコアコントリビューションは、ノイズ予測のフーリエ解析に起因し、その低周波成分と高周波成分が拡散を通して異なる進化を遂げていることを明らかにする。この知見に基づいてFreScaを導入し、FreScaはフーリエ領域の異なる周波数帯域に独立してガイダンススケーリングを適用する簡単な方法である。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-23T02:52:53Z)
Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文参考訳（メタデータ） (2024-06-18T06:20:42Z)
Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文参考訳（メタデータ） (2024-02-07T14:59:25Z)
Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文参考訳（メタデータ） (2023-09-29T03:24:24Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文参考訳（メタデータ） (2021-10-10T10:46:31Z)
Non Gaussian Denoising Diffusion Models [91.22679787578438]
ガンマ分布からのノイズは、画像および音声生成のための改善された結果をもたらすことを示す。また,拡散過程におけるガウス雑音の混合を用いることで,単一分布に基づく拡散過程における性能が向上することを示す。
論文参考訳（メタデータ） (2021-06-14T16:42:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。