論文の概要: Cluster-guided Image Synthesis with Unconditional Models
- arxiv url: http://arxiv.org/abs/2112.12911v1
- Date: Fri, 24 Dec 2021 02:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:02:57.882879
- Title: Cluster-guided Image Synthesis with Unconditional Models
- Title(参考訳): 非条件モデルを用いたクラスタ誘導画像合成
- Authors: Markos Georgopoulos, James Oldfield, Grigorios G Chrysos, Yannis
Panagakis
- Abstract要約: 本研究は、教師なし方式でよく訓練されたGANを活用することにより、制御可能な画像生成に焦点を当てる。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
- 参考スコア(独自算出の注目度): 41.89334167530054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GANs) are the driving force behind the
state-of-the-art in image generation. Despite their ability to synthesize
high-resolution photo-realistic images, generating content with on-demand
conditioning of different granularity remains a challenge. This challenge is
usually tackled by annotating massive datasets with the attributes of interest,
a laborious task that is not always a viable option. Therefore, it is vital to
introduce control into the generation process of unsupervised generative
models. In this work, we focus on controllable image generation by leveraging
GANs that are well-trained in an unsupervised fashion. To this end, we discover
that the representation space of intermediate layers of the generator forms a
number of clusters that separate the data according to semantically meaningful
attributes (e.g., hair color and pose). By conditioning on the cluster
assignments, the proposed method is able to control the semantic class of the
generated image. Our approach enables sampling from each cluster by Implicit
Maximum Likelihood Estimation (IMLE). We showcase the efficacy of our approach
on faces (CelebA-HQ and FFHQ), animals (Imagenet) and objects (LSUN) using
different pre-trained generative models. The results highlight the ability of
our approach to condition image generation on attributes like gender, pose and
hair style on faces, as well as a variety of features on different object
classes.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は、画像生成における最先端の原動力である。
高解像度フォトリアリスティック画像を合成する能力はあるものの、異なる粒度のオンデマンドコンディショニングでコンテンツを生成することは課題である。
この課題は通常、巨大なデータセットに興味のある属性をアノテートすることで解決される。
したがって、教師なし生成モデルの生成プロセスに制御を導入することが不可欠である。
本研究では,教師なし方式でよく訓練されたGANを活用して,制御可能な画像生成に焦点を当てる。
この目的のために、生成元の中間層の表現空間は、意味的に意味のある属性(例えば、髪の色とポーズ)に基づいてデータを分離する多数のクラスタを形成する。
クラスタ割り当てを条件付けすることで、提案手法は生成された画像の意味クラスを制御することができる。
提案手法は,Implicit Maximum Likelihood Estimation (IMLE)による各クラスタからのサンプリングを可能にする。
顔(CelebA-HQとFFHQ)、動物(Imagenet)、オブジェクト(LSUN)に対するアプローチの有効性を,異なる事前学習生成モデルを用いて示す。
その結果,顔の性別,ポーズ,ヘアスタイルなどの属性による条件画像生成,およびさまざまな対象のクラスにおけるさまざまな特徴が明らかになった。
関連論文リスト
- Attack Deterministic Conditional Image Generative Models for Diverse and
Controllable Generation [17.035117118768945]
本稿では,多様な制御可能な画像生成のためのプラグイン投影勾配降下法(PGD)を提案する。
鍵となる考え方は、入力条件に微小摂動を加えることで、事前訓練された決定論的生成モデルを攻撃することである。
我々の研究は、低レベルの視覚タスクに敵攻撃を適用するための扉を開く。
論文 参考訳(メタデータ) (2024-03-13T06:57:23Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Conditioning Diffusion Models via Attributes and Semantic Masks for Face
Generation [1.104121146441257]
深層生成モデルは、現実的な顔の画像を生成する素晴らしい結果を示している。
GANはセマンティックマスクで条件付きで高品質で高忠実な画像を生成することができたが、それでも出力を多様化する能力は欠けていた。
本稿では,属性とセマンティックマスクの両方を利用した多条件拡散モデルの提案を行い,高品質で制御可能な顔画像を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:16:37Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z) - Collaging Class-specific GANs for Semantic Image Synthesis [68.87294033259417]
本稿では,高分解能なセマンティック画像合成のための新しい手法を提案する。
1つのベースイメージジェネレータと複数のクラス固有のジェネレータで構成される。
実験により,本手法は高解像度で高品質な画像を生成することができることが示された。
論文 参考訳(メタデータ) (2021-10-08T17:46:56Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。