論文の概要: Diffusion Models already have a Semantic Latent Space
- arxiv url: http://arxiv.org/abs/2210.10960v1
- Date: Thu, 20 Oct 2022 02:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:50:17.911393
- Title: Diffusion Models already have a Semantic Latent Space
- Title(参考訳): 拡散モデルはすでにセマンティック潜在空間を持っている
- Authors: Mingi Kwon, Jaeseok Jeong, Youngjung Uh
- Abstract要約: 凍結事前学習拡散モデルにおいて,非対称な逆過程(Asyrp)を提案する。
h-spaceという名前のセマンティック潜在空間は、セマンティックイメージ操作を調節するための優れた特性を持つ。
さらに、定量化による多目的編集と品質向上のための生成プロセスの原理的設計を導入する。
- 参考スコア(独自算出の注目度): 7.638042073679074
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models achieve outstanding generative performance in various
domains. Despite their great success, they lack semantic latent space which is
essential for controlling the generative process. To address the problem, we
propose asymmetric reverse process (Asyrp) which discovers the semantic latent
space in frozen pretrained diffusion models. Our semantic latent space, named
h-space, has nice properties for accommodating semantic image manipulation:
homogeneity, linearity, robustness, and consistency across timesteps. In
addition, we introduce a principled design of the generative process for
versatile editing and quality boost ing by quantifiable measures: editing
strength of an interval and quality deficiency at a timestep. Our method is
applicable to various architectures (DDPM++, iD- DPM, and ADM) and datasets
(CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, and METFACES). Project page:
https://kwonminki.github.io/Asyrp/
- Abstract(参考訳): 拡散モデルは様々な領域において優れた生成性能を達成する。
その大きな成功にもかかわらず、生成過程を制御するのに不可欠な意味的潜在空間が欠如している。
そこで本研究では,凍結事前学習拡散モデルにおいて,非対称な逆過程(Asyrp)を提案する。
h-空間という名前のセマンティック潜在空間は、ホモジニティ、線形性、ロバスト性、時間ステップ間の一貫性といった、セマンティックなイメージ操作を調節するための優れた特性を持つ。
さらに,時間経過における間隔の編集強度と品質不足の定量化により,多目的編集と品質向上のための生成プロセスの原理的設計を導入する。
本手法は,各種アーキテクチャ (DDPM++, iD-DPM, ADM) およびデータセット (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, METFACES) に適用可能である。
プロジェクトページ: https://kwonminki.github.io/asyrp/
関連論文リスト
- Aggregation of Multi Diffusion Models for Enhancing Learned Representations [4.126721111013567]
本稿では, Aggregation of Multi Diffusion Models (AMDM) を提案する。
AMDMは、複数の拡散モデルから特定のモデルに特徴を合成し、学習された表現を拡張して、きめ細かい制御のために特定の特徴を活性化する。
実験の結果,AMDMはトレーニング時間や推論時間を必要とせず,微粒化制御を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Causal Diffusion Autoencoders: Toward Counterfactual Generation via Diffusion Probabilistic Models [17.124075103464392]
拡散モデル(DPM)は高品質の画像生成における最先端技術となっている。
DPMは、解釈可能な意味論や制御可能な意味論を持たない任意の雑音潜在空間を持つ。
本稿では,拡散に基づく因果表現学習フレームワークCausalDiffAEを提案する。
論文 参考訳(メタデータ) (2024-04-27T00:09:26Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - Mirror Diffusion Models for Constrained and Watermarked Generation [41.27274841596343]
ミラー拡散モデル(MDM)は、トラクタビリティを損なうことなく凸制約セット上のデータを生成する新しい拡散モデルである。
安全とプライバシーのために、我々は、生成したデータに目に見えないが定量的な情報を埋め込む新しいメカニズムとして制約セットを探求する。
私たちの研究は、複雑なドメイン上での抽出可能な拡散を学習する新しいアルゴリズムの機会をもたらします。
論文 参考訳(メタデータ) (2023-10-02T14:26:31Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DLT: Conditioned layout generation with Joint Discrete-Continuous
Diffusion Layout Transformer [2.0483033421034142]
DLTは離散連続拡散モデルである。
DLTにはフレキシブルな条件付け機構があり、すべてのレイアウトコンポーネントクラス、場所、サイズのいずれかのサブセットを条件付けできる。
提案手法は,様々なレイアウト生成データセット上で,様々なメトリクスや条件設定に対して,最先端の生成モデルより優れています。
論文 参考訳(メタデータ) (2023-03-07T09:30:43Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Layout-to-Image Translation with Double Pooling Generative Adversarial
Networks [76.83075646527521]
入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
論文 参考訳(メタデータ) (2021-08-29T19:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。