論文の概要: Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.04410v1
- Date: Thu, 7 Dec 2023 16:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:22:57.149951
- Title: Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models
- Title(参考訳): Smooth Diffusion: 拡散モデルにおけるSmooth Latent Spaceの作成
- Authors: Jiayi Guo, Xingqian Xu, Yifan Pu, Zanlin Ni, Chaofei Wang, Manushree
Vasu, Shiji Song, Gao Huang, Humphrey Shi
- Abstract要約: 滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
- 参考スコア(独自算出の注目度): 82.8261101680427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion models have made remarkable progress in text-to-image
(T2I) generation, synthesizing images with high fidelity and diverse contents.
Despite this advancement, latent space smoothness within diffusion models
remains largely unexplored. Smooth latent spaces ensure that a perturbation on
an input latent corresponds to a steady change in the output image. This
property proves beneficial in downstream tasks, including image interpolation,
inversion, and editing. In this work, we expose the non-smoothness of diffusion
latent spaces by observing noticeable visual fluctuations resulting from minor
latent variations. To tackle this issue, we propose Smooth Diffusion, a new
category of diffusion models that can be simultaneously high-performing and
smooth. Specifically, we introduce Step-wise Variation Regularization to
enforce the proportion between the variations of an arbitrary input latent and
that of the output image is a constant at any diffusion training step. In
addition, we devise an interpolation standard deviation (ISTD) metric to
effectively assess the latent space smoothness of a diffusion model. Extensive
quantitative and qualitative experiments demonstrate that Smooth Diffusion
stands out as a more desirable solution not only in T2I generation but also
across various downstream tasks. Smooth Diffusion is implemented as a
plug-and-play Smooth-LoRA to work with various community models. Code is
available at https://github.com/SHI-Labs/Smooth-Diffusion.
- Abstract(参考訳): 近年、拡散モデルはテキスト・ツー・イメージ(T2I)生成において顕著な進歩を遂げている。
この進歩にもかかわらず、拡散モデル内の潜在空間の滑らかさはほとんど未解明のままである。
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証する。
この特性は、画像補間、反転、編集を含む下流タスクにおいて有益である。
本研究では,拡散潜時空間の非平滑性を明らかにするために,微小潜時変動に起因する顕著な視覚的ゆらぎを観測する。
この問題に取り組むため,我々は,ハイパフォーマンスかつスムースな拡散モデルの新たなカテゴリである smooth diffusion を提案する。
具体的には,任意の入力潜時の変動と出力画像の変動との比率を任意の拡散訓練ステップで一定にするために,ステップワイズ変動正規化を導入する。
さらに,拡散モデルの潜在空間の滑らかさを効果的に評価するために,補間標準偏差(istd)メトリックを考案する。
大規模な定量的および定性的実験により、スムース拡散はT2I生成だけでなく、様々な下流タスクにおいてより望ましい解であることが示された。
Smooth DiffusionはSmooth-LoRAプラグインとして実装され、様々なコミュニティモデルで動作する。
コードはhttps://github.com/shi-labs/smooth-diffusionで入手できる。
関連論文リスト
- Towards diffusion models for large-scale sea-ice modelling [0.4498088099418789]
データ空間におけるガウス分布を検閲して、潜伏拡散モデルを海氷物理学に調整し、モデル化された変数の物理的境界に従うデータを生成する。
我々の潜伏拡散モデルは、データ空間で訓練された拡散モデルと同様のスコアに達するが、潜伏写像によって生成されたフィールドは滑らかである。
大規模地球系モデリングでは、スムース化の重要な障壁を解決することができる場合、遅延拡散モデルはデータ空間の拡散に比べて多くの利点を持つ。
論文 参考訳(メタデータ) (2024-06-26T15:11:15Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - DiffMorpher: Unleashing the Capability of Diffusion Models for Image
Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。
私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。
また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:28:08Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Eliminating Lipschitz Singularities in Diffusion Models [51.806899946775076]
拡散モデルは、時間ステップの零点付近で無限のリプシッツをしばしば表すことを示す。
これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。
我々はE-TSDMと呼ばれる新しい手法を提案し、これは0に近い拡散モデルのリプシッツを除去する。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z) - Diffusion Models Generate Images Like Painters: an Analytical Theory of Outline First, Details Later [1.8416014644193066]
画像生成の基盤となる逆拡散過程には,以下の特性がある。
個々の軌道は低次元であり、2次元回転に似ている」。
本手法は,事前学習したモデルに対する画像生成の初期フェーズを正確に記述する。
論文 参考訳(メタデータ) (2023-03-04T20:08:57Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。