論文の概要: Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space
- arxiv url: http://arxiv.org/abs/2503.09419v1
- Date: Wed, 12 Mar 2025 14:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:02.189440
- Title: Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space
- Title(参考訳): エイリアスフリー潜時拡散モデル:拡散潜時空間のフラクタルシフト等価性の改善
- Authors: Yifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan,
- Abstract要約: 潜在拡散モデル(LDM)は不安定な生成過程を持つことが知られている。
これにより、一貫した結果を必要とするアプリケーションに適用できなくなる。
本研究では,LDMをシフト同変にすることで整合性を高めるために再設計する。
- 参考スコア(独自算出の注目度): 20.361790608772157
- License:
- Abstract: Latent Diffusion Models (LDMs) are known to have an unstable generation process, where even small perturbations or shifts in the input noise can lead to significantly different outputs. This hinders their applicability in applications requiring consistent results. In this work, we redesign LDMs to enhance consistency by making them shift-equivariant. While introducing anti-aliasing operations can partially improve shift-equivariance, significant aliasing and inconsistency persist due to the unique challenges in LDMs, including 1) aliasing amplification during VAE training and multiple U-Net inferences, and 2) self-attention modules that inherently lack shift-equivariance. To address these issues, we redesign the attention modules to be shift-equivariant and propose an equivariance loss that effectively suppresses the frequency bandwidth of the features in the continuous domain. The resulting alias-free LDM (AF-LDM) achieves strong shift-equivariance and is also robust to irregular warping. Extensive experiments demonstrate that AF-LDM produces significantly more consistent results than vanilla LDM across various applications, including video editing and image-to-image translation. Code is available at: https://github.com/SingleZombie/AFLDM
- Abstract(参考訳): 遅延拡散モデル (LDMs) は不安定な生成過程を持つことが知られており、入力ノイズの小さな摂動やシフトでさえ、出力を著しく異なるものにすることができる。
これにより、一貫した結果を必要とするアプリケーションに適用できなくなる。
本研究では,LDMをシフト同変にすることで整合性を高めるために再設計する。
アンチエイリアス操作の導入は、シフト平等を部分的に改善できるが、LDMの独特な課題により、重要なエイリアスや不整合が持続する。
1)VAEトレーニング及び複数U-Net推論中の増幅の緩和
2) シフト等価性に本質的に欠ける自己注意モジュール。
これらの問題に対処するため、我々は注目モジュールをシフト同変に再設計し、連続領域における特徴の周波数帯域を効果的に抑制する等分散損失を提案する。
結果として生じるエイリアスフリー LDM (AF-LDM) は、強いシフト等価性を実現し、また不規則な反りにも頑健である。
大規模な実験により、AF-LDMは、ビデオ編集や画像から画像への変換を含む様々なアプリケーションにおいて、バニラLDMよりもはるかに一貫性のある結果が得られることが示された。
コードは、https://github.com/SingleZombie/AFLDMで入手できる。
関連論文リスト
- FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。
これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。
我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文 参考訳(メタデータ) (2024-11-27T17:51:44Z) - DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents [41.86208391836456]
本研究では,複雑なデータ分布を単一連続ガウス分布に符号化するDisCo-Diffを提案する。
DisCo-Diffはトレーニング済みのネットワークに依存しておらず、フレームワークを普遍的に適用することができる。
玩具データ, 画像合成タスク, 分子ドッキングに関するDisCo-Diffの検証を行い, 離散潜水剤の導入によりモデル性能が一貫した改善が得られた。
論文 参考訳(メタデータ) (2024-07-03T17:42:46Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Neural Diffusion Models [2.1779479916071067]
本稿では,データの時間依存非線形変換の定義と学習を可能にする,従来の拡散モデルの一般化について述べる。
NDMは、可能性の観点から従来の拡散モデルより優れ、高品質なサンプルを生成する。
論文 参考訳(メタデータ) (2023-10-12T13:54:55Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Detaching and Boosting: Dual Engine for Scale-Invariant Self-Supervised
Monocular Depth Estimation [18.741426143836538]
本稿では,自己教師型MDEに対して,SSF(Scale-sensitive features)を分離したスケール不変な手法を提案する。
具体的には、SSFをデタッチするために、カメラズーム処理を模倣して、単純だが効果的なデータ拡張を提案する。
提案手法は,0.097から0.090 w.r.tの絶対相対誤差に対して,新たなステート・オブ・ザ・アート性能を実現する。
論文 参考訳(メタデータ) (2022-10-08T07:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。