Fugu-MT 論文翻訳(概要): Edge-preserving noise for diffusion models

論文の概要: Edge-preserving noise for diffusion models

arxiv url: http://arxiv.org/abs/2410.01540v2
Date: Fri, 25 Oct 2024 09:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 17:04:38.505445
Title: Edge-preserving noise for diffusion models
Title（参考訳）: 拡散モデルのためのエッジ保存ノイズ
Authors: Jente Vandersanden, Sascha Holl, Xingchang Huang, Gurprit Singh,
Abstract要約: 本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
参考スコア（独自算出の注目度）: 4.435514696080208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Classical generative diffusion models learn an isotropic Gaussian denoising process, treating all spatial regions uniformly, thus neglecting potentially valuable structural information in the data. Inspired by the long-established work on anisotropic diffusion in image processing, we present a novel edge-preserving diffusion model that is a generalization of denoising diffusion probablistic models (DDPM). In particular, we introduce an edge-aware noise scheduler that varies between edge-preserving and isotropic Gaussian noise. We show that our model's generative process converges faster to results that more closely match the target distribution. We demonstrate its capability to better learn the low-to-mid frequencies within the dataset, which plays a crucial role in representing shapes and structural information. Our edge-preserving diffusion process consistently outperforms state-of-the-art baselines in unconditional image generation. It is also more robust for generative tasks guided by a shape-based prior, such as stroke-to-image generation. We present qualitative and quantitative results showing consistent improvements (FID score) of up to 30% for both tasks. We provide source code and supplementary content via the public domain edge-preserving-diffusion.mpi-inf.mpg.de .
Abstract（参考訳）: 古典的生成拡散モデルは等方的ガウス分解過程を学習し、すべての空間領域を均一に扱い、データ中の潜在的に価値のある構造情報を無視する。画像処理における異方性拡散に関する長年にわたる研究から着想を得て,拡散確率モデル(DDPM)の一般化であるエッジ保存拡散モデルを提案する。特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。形状や構造情報の表現において重要な役割を果たすデータセット内の低中間周波数をよりよく学習する能力を示す。我々のエッジ保存拡散プロセスは、非条件画像生成における最先端のベースラインを一貫して上回る。また、ストローク・ツー・イメージ・ジェネレーション(英語版)のような形状に基づく先行課題によって導かれる生成タスクに対しても、より堅牢である。両タスクで最大30%の一貫性のある改善(FIDスコア)を示す定性的,定量的な結果を示す。我々は、パブリックドメインのエッジ保存-diffusion.mpi-inf.mpg.deを通じてソースコードと補足コンテンツを提供する。

関連論文リスト

Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文参考訳（メタデータ） (2025-11-24T01:13:51Z)
Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文参考訳（メタデータ） (2025-09-18T18:18:49Z)
A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models [0.0]
本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
論文参考訳（メタデータ） (2025-04-04T17:11:04Z)
Critical Iterative Denoising: A Discrete Generative Model Applied to Graphs [52.50288418639075]
本稿では, 個別拡散を単純化し, 時間とともに条件付き独立性を仮定することで問題を回避できる, イテレーティブ・デノナイジング(Iterative Denoising)という新しい枠組みを提案する。実験により,提案手法はグラフ生成タスクにおいて既存の離散拡散ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-03-27T15:08:58Z)
One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T07:47:27Z)
Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution [29.744990195972587]
拡散モデルは画像合成に革命をもたらし、近年は重要な研究の関心を集めている。拡散軌跡に基づく識別アルゴリズムについて検討する。われわれの手法は、分類に活用できるステップにまたがるパターンの存在を実証する。
論文参考訳（メタデータ） (2024-11-12T00:20:11Z)
Diffusion Priors for Variational Likelihood Estimation and Image Denoising [10.548018200066858]
本稿では,現実の雑音に対処するために,逆拡散過程における適応的確率推定とMAP推定を提案する。実世界の多様なデータセットの実験と分析により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-23T02:52:53Z)
GUD: Generation with Unified Diffusion [40.64742332352373]
拡散生成モデルは、データサンプルにノイズを徐々に付加するプロセスを反転させることで、ノイズをデータに変換する。設計自由度を大幅に向上した拡散生成モデル統合フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-03T16:51:14Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文参考訳（メタデータ） (2024-02-07T14:59:25Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文参考訳（メタデータ） (2023-09-29T03:24:24Z)
Stage-by-stage Wavelet Optimization Refinement Diffusion Model for Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文参考訳（メタデータ） (2023-08-30T10:48:53Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文参考訳（メタデータ） (2023-03-15T02:16:39Z)
Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文参考訳（メタデータ） (2022-12-30T17:56:07Z)
Denoising Diffusion Gamma Models [91.22679787578438]
Denoising Diffusion Gamma Model (DDGM)を導入し、ガンマ分布からのノイズが画像および音声生成に改善をもたらすことを示す。提案手法は,ガンマノイズを用いてトレーニング拡散過程の状態を効率的にサンプリングする能力を保持する。
論文参考訳（メタデータ） (2021-10-10T10:46:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。