論文の概要: Discovering Interpretable Directions in the Semantic Latent Space of
Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.11073v1
- Date: Mon, 20 Mar 2023 12:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:35:35.991909
- Title: Discovering Interpretable Directions in the Semantic Latent Space of
Diffusion Models
- Title(参考訳): 拡散モデルのセマンティック潜在空間における解釈的方向の発見
- Authors: Ren\'e Haas, Inbar Huberman-Spiegelglas, Rotem Mulayoff, Tomer
Michaeli
- Abstract要約: DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
- 参考スコア(独自算出の注目度): 33.29870829048959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising Diffusion Models (DDMs) have emerged as a strong competitor to
Generative Adversarial Networks (GANs). However, despite their widespread use
in image synthesis and editing applications, their latent space is still not as
well understood. Recently, a semantic latent space for DDMs, coined
`$h$-space', was shown to facilitate semantic image editing in a way
reminiscent of GANs. The $h$-space is comprised of the bottleneck activations
in the DDM's denoiser across all timesteps of the diffusion process. In this
paper, we explore the properties of h-space and propose several novel methods
for finding meaningful semantic directions within it. We start by studying
unsupervised methods for revealing interpretable semantic directions in
pretrained DDMs. Specifically, we show that global latent directions emerge as
the principal components in the latent space. Additionally, we provide a novel
method for discovering image-specific semantic directions by spectral analysis
of the Jacobian of the denoiser w.r.t. the latent code. Next, we extend the
analysis by finding directions in a supervised fashion in unconditional DDMs.
We demonstrate how such directions can be found by relying on either a labeled
data set of real images or by annotating generated samples with a
domain-specific attribute classifier. We further show how to semantically
disentangle the found direction by simple linear projection. Our approaches are
applicable without requiring any architectural modifications, text-based
guidance, CLIP-based optimization, or model fine-tuning.
- Abstract(参考訳): Denoising Diffusion Models (DDM) はGenerative Adversarial Networks (GAN) と強力な競合関係にある。
しかし、画像合成や編集に広く用いられているにもかかわらず、その潜在空間はいまだよく理解されていない。
近年,「$h$-space」とよばれるDDMのセマンティック潜在空間が,GANを連想させる形でセマンティック画像編集を容易にすることが示されている。
h$-space は拡散過程の全時間ステップにわたる ddm の denoiser のボトルネックアクティベーションからなる。
本稿では,h空間の特性を探索し,その中に有意義な意味的方向を求める手法を提案する。
まず、事前訓練されたDDMにおける解釈可能な意味方向を明らかにするための教師なし手法の研究から始める。
具体的には,グローバル潜在方向が潜在空間の主成分として現れることを示す。
さらに,遅延符号のデノイザWr.t.のヤコビアンのスペクトル解析により,画像固有の意味方向を検出する新しい手法を提案する。
次に,非条件ddmsにおいて教師付き手法で方向を求めることで解析を拡張する。
実画像のラベル付きデータセットか、ドメイン固有の属性分類器で生成されたサンプルにアノテートすることで、そのような方向を見つけることができることを示す。
さらに, 単純な線形射影により, 与えられた方向を意味的に絡み合う方法を示す。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Enabling Local Editing in Diffusion Models by Joint and Individual Component Analysis [18.755311950243737]
拡散モデル(DM)の潜伏空間は、GAN(Generative Adversarial Networks)ほど理解されていない。
最近の研究は、DMの潜在領域における教師なし意味発見に焦点を当てている。
本稿では,事前学習したDMの認知ネットワークから学習した潜在意味論を分解する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T18:21:50Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Discovering Class-Specific GAN Controls for Semantic Image Synthesis [73.91655061467988]
本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
論文 参考訳(メタデータ) (2022-12-02T21:39:26Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。