論文の概要: Discovering Class-Specific GAN Controls for Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2212.01455v1
- Date: Fri, 2 Dec 2022 21:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:58:38.504985
- Title: Discovering Class-Specific GAN Controls for Semantic Image Synthesis
- Title(参考訳): セマンティック画像合成のためのクラス特異的GAN制御の探索
- Authors: Edgar Sch\"onfeld, Julio Borges, Vadim Sushko, Bernt Schiele, Anna
Khoreva
- Abstract要約: 本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
- 参考スコア(独自算出の注目度): 73.91655061467988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has extensively studied the latent space structure of GANs for
unconditional image synthesis, enabling global editing of generated images by
the unsupervised discovery of interpretable latent directions. However, the
discovery of latent directions for conditional GANs for semantic image
synthesis (SIS) has remained unexplored. In this work, we specifically focus on
addressing this gap. We propose a novel optimization method for finding
spatially disentangled class-specific directions in the latent space of
pretrained SIS models. We show that the latent directions found by our method
can effectively control the local appearance of semantic classes, e.g.,
changing their internal structure, texture or color independently from each
other. Visual inspection and quantitative evaluation of the discovered GAN
controls on various datasets demonstrate that our method discovers a diverse
set of unique and semantically meaningful latent directions for class-specific
edits.
- Abstract(参考訳): 従来の研究は、非条件画像合成のためのGANの潜時空間構造を広範囲に研究し、解釈可能な潜時方向の教師なし発見による生成画像のグローバルな編集を可能にした。
しかし, セマンティック画像合成(SIS)のための条件付きGANの遅延方向の発見はいまだ発見されていない。
この作業では、特にこのギャップに対処することに重点を置いています。
本稿では,事前訓練されたSISモデルの潜時空間における空間的不整合クラス固有方向を求めるための新しい最適化手法を提案する。
提案手法によって検出される潜伏方向は,内部構造やテクスチャ,色など,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
様々なデータセット上で発見されたGAN制御の視覚的検査と定量的評価により,本手法は,クラス固有の編集のための特異かつ意味論的に意味のある潜在方向の多種多様なセットを探索することを示した。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - Enabling Local Editing in Diffusion Models by Joint and Individual Component Analysis [18.755311950243737]
拡散モデル(DM)の潜伏空間は、GAN(Generative Adversarial Networks)ほど理解されていない。
最近の研究は、DMの潜在領域における教師なし意味発見に焦点を当てている。
本稿では,事前学習したDMの認知ネットワークから学習した潜在意味論を分解する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T18:21:50Z) - Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models [21.173910627285338]
DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
論文 参考訳(メタデータ) (2023-03-20T12:59:32Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Interpreting the Latent Space of GANs via Correlation Analysis for
Controllable Concept Manipulation [9.207806788490057]
GAN(Generative Adversarial Nets)は、画像生成、塗装、超解像、薬物発見など、多くの分野で成功している。
本稿では,生成画像中の潜伏変数と対応する意味内容との相関を解析することにより,GANの潜伏空間を解釈する手法を提案する。
論文 参考訳(メタデータ) (2020-05-23T03:50:27Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z) - GANSpace: Discovering Interpretable GAN Controls [24.428247009562895]
本稿では,GAN(Generative Adversarial Networks)を解析し,画像合成のための解釈可能な制御を生成する手法について述べる。
我々は,主成分分析(PCA)に基づく重要な潜伏方向を,潜伏空間や特徴空間に適用した上で同定する。
多数の解釈可能な制御が主方向に沿った層方向の摂動によって定義されることを示す。
論文 参考訳(メタデータ) (2020-04-06T10:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。