論文の概要: Discovering Interpretable Directions in the Semantic Latent Space of
Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.11073v1
- Date: Mon, 20 Mar 2023 12:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:35:35.991909
- Title: Discovering Interpretable Directions in the Semantic Latent Space of
Diffusion Models
- Title(参考訳): 拡散モデルのセマンティック潜在空間における解釈的方向の発見
- Authors: Ren\'e Haas, Inbar Huberman-Spiegelglas, Rotem Mulayoff, Tomer
Michaeli
- Abstract要約: DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
- 参考スコア(独自算出の注目度): 33.29870829048959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising Diffusion Models (DDMs) have emerged as a strong competitor to
Generative Adversarial Networks (GANs). However, despite their widespread use
in image synthesis and editing applications, their latent space is still not as
well understood. Recently, a semantic latent space for DDMs, coined
`$h$-space', was shown to facilitate semantic image editing in a way
reminiscent of GANs. The $h$-space is comprised of the bottleneck activations
in the DDM's denoiser across all timesteps of the diffusion process. In this
paper, we explore the properties of h-space and propose several novel methods
for finding meaningful semantic directions within it. We start by studying
unsupervised methods for revealing interpretable semantic directions in
pretrained DDMs. Specifically, we show that global latent directions emerge as
the principal components in the latent space. Additionally, we provide a novel
method for discovering image-specific semantic directions by spectral analysis
of the Jacobian of the denoiser w.r.t. the latent code. Next, we extend the
analysis by finding directions in a supervised fashion in unconditional DDMs.
We demonstrate how such directions can be found by relying on either a labeled
data set of real images or by annotating generated samples with a
domain-specific attribute classifier. We further show how to semantically
disentangle the found direction by simple linear projection. Our approaches are
applicable without requiring any architectural modifications, text-based
guidance, CLIP-based optimization, or model fine-tuning.
- Abstract(参考訳): Denoising Diffusion Models (DDM) はGenerative Adversarial Networks (GAN) と強力な競合関係にある。
しかし、画像合成や編集に広く用いられているにもかかわらず、その潜在空間はいまだよく理解されていない。
近年,「$h$-space」とよばれるDDMのセマンティック潜在空間が,GANを連想させる形でセマンティック画像編集を容易にすることが示されている。
h$-space は拡散過程の全時間ステップにわたる ddm の denoiser のボトルネックアクティベーションからなる。
本稿では,h空間の特性を探索し,その中に有意義な意味的方向を求める手法を提案する。
まず、事前訓練されたDDMにおける解釈可能な意味方向を明らかにするための教師なし手法の研究から始める。
具体的には,グローバル潜在方向が潜在空間の主成分として現れることを示す。
さらに,遅延符号のデノイザWr.t.のヤコビアンのスペクトル解析により,画像固有の意味方向を検出する新しい手法を提案する。
次に,非条件ddmsにおいて教師付き手法で方向を求めることで解析を拡張する。
実画像のラベル付きデータセットか、ドメイン固有の属性分類器で生成されたサンプルにアノテートすることで、そのような方向を見つけることができることを示す。
さらに, 単純な線形射影により, 与えられた方向を意味的に絡み合う方法を示す。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
関連論文リスト
- EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - SC2GAN: Rethinking Entanglement by Self-correcting Correlated GAN Space [16.040942072859075]
ある属性の編集方向に従う遺伝子ネットワークは、他の属性と絡み合った変更をもたらす可能性がある。
本稿では,低密度の潜伏コードサンプルを元の潜伏空間に再プロジェクションすることで,SC$2$GANのアンタングル化を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T14:42:32Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Discovering Class-Specific GAN Controls for Semantic Image Synthesis [73.91655061467988]
本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
論文 参考訳(メタデータ) (2022-12-02T21:39:26Z) - Fantastic Style Channels and Where to Find Them: A Submodular Framework
for Discovering Diverse Directions in GANs [0.0]
StyleGAN2は、リッチでゆがみのある潜在空間のために、様々な画像生成および操作タスクを可能にした。
そこで我々は,StyleGAN2の潜在空間において,最も代表的で多様な方向のサブセットを見つけるための,新しいサブモジュラー・フレームワークを設計する。
本フレームワークは,クラスタの概念を用いて多様性を促進し,グリーディ最適化方式で効率的に解ける。
論文 参考訳(メタデータ) (2022-03-16T10:35:41Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。