論文の概要: Edge-preserving noise for diffusion models
- arxiv url: http://arxiv.org/abs/2410.01540v2
- Date: Fri, 25 Oct 2024 09:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:04:38.505445
- Title: Edge-preserving noise for diffusion models
- Title(参考訳): 拡散モデルのためのエッジ保存ノイズ
- Authors: Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh,
- Abstract要約: 本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。
特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。
モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
- 参考スコア(独自算出の注目度): 4.435514696080208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical generative diffusion models learn an isotropic Gaussian denoising process, treating all spatial regions uniformly, thus neglecting potentially valuable structural information in the data. Inspired by the long-established work on anisotropic diffusion in image processing, we present a novel edge-preserving diffusion model that is a generalization of denoising diffusion probablistic models (DDPM). In particular, we introduce an edge-aware noise scheduler that varies between edge-preserving and isotropic Gaussian noise. We show that our model's generative process converges faster to results that more closely match the target distribution. We demonstrate its capability to better learn the low-to-mid frequencies within the dataset, which plays a crucial role in representing shapes and structural information. Our edge-preserving diffusion process consistently outperforms state-of-the-art baselines in unconditional image generation. It is also more robust for generative tasks guided by a shape-based prior, such as stroke-to-image generation. We present qualitative and quantitative results showing consistent improvements (FID score) of up to 30% for both tasks. We provide source code and supplementary content via the public domain edge-preserving-diffusion.mpi-inf.mpg.de .
- Abstract(参考訳): 古典的生成拡散モデルは等方的ガウス分解過程を学習し、すべての空間領域を均一に扱い、データ中の潜在的に価値のある構造情報を無視する。
画像処理における異方性拡散に関する長年にわたる研究から着想を得て,拡散確率モデル(DDPM)の一般化であるエッジ保存拡散モデルを提案する。
特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。
モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
形状や構造情報の表現において重要な役割を果たすデータセット内の低中間周波数をよりよく学習する能力を示す。
我々のエッジ保存拡散プロセスは、非条件画像生成における最先端のベースラインを一貫して上回る。
また、ストローク・ツー・イメージ・ジェネレーション(英語版)のような形状に基づく先行課題によって導かれる生成タスクに対しても、より堅牢である。
両タスクで最大30%の一貫性のある改善(FIDスコア)を示す定性的,定量的な結果を示す。
我々は、パブリックドメインのエッジ保存-diffusion.mpi-inf.mpg.deを通じてソースコードと補足コンテンツを提供する。
関連論文リスト
- Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution [29.744990195972587]
拡散モデルは画像合成に革命をもたらし、近年は重要な研究の関心を集めている。
拡散軌跡に基づく識別アルゴリズムについて検討する。
われわれの手法は、分類に活用できるステップにまたがるパターンの存在を実証する。
論文 参考訳(メタデータ) (2024-11-12T00:20:11Z) - Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。
実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-23T02:52:53Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。
提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文 参考訳(メタデータ) (2021-10-10T10:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。