論文の概要: SD-GAN: Semantic Decomposition for Face Image Synthesis with Discrete
Attribute
- arxiv url: http://arxiv.org/abs/2207.05300v1
- Date: Tue, 12 Jul 2022 04:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:50:51.511511
- Title: SD-GAN: Semantic Decomposition for Face Image Synthesis with Discrete
Attribute
- Title(参考訳): SD-GAN:離散属性を用いた顔画像合成のための意味分解
- Authors: Zhou Kangneng, Zhu Xiaobin, Gao Daiheng, Lee Kai, Li Xinjie, Yin
Xu-Cheng
- Abstract要約: 本稿では,SD-GANと呼ばれる意味的分解による顔の離散属性合成に挑戦する革新的な枠組みを提案する。
融合ネットワークは、より優れたアイデンティティ保存と離散属性合成のために3D埋め込みを統合する。
既存のデータセットにおける離散属性の欠如を解消するための,大規模で価値のあるデータセットMEGNを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Manipulating latent code in generative adversarial networks (GANs) for facial
image synthesis mainly focuses on continuous attribute synthesis (e.g., age,
pose and emotion), while discrete attribute synthesis (like face mask and
eyeglasses) receives less attention. Directly applying existing works to facial
discrete attributes may cause inaccurate results. In this work, we propose an
innovative framework to tackle challenging facial discrete attribute synthesis
via semantic decomposing, dubbed SD-GAN. To be concrete, we explicitly
decompose the discrete attribute representation into two components, i.e. the
semantic prior basis and offset latent representation. The semantic prior basis
shows an initializing direction for manipulating face representation in the
latent space. The offset latent presentation obtained by 3D-aware semantic
fusion network is proposed to adjust prior basis. In addition, the fusion
network integrates 3D embedding for better identity preservation and discrete
attribute synthesis. The combination of prior basis and offset latent
representation enable our method to synthesize photo-realistic face images with
discrete attributes. Notably, we construct a large and valuable dataset MEGN
(Face Mask and Eyeglasses images crawled from Google and Naver) for completing
the lack of discrete attributes in the existing dataset. Extensive qualitative
and quantitative experiments demonstrate the state-of-the-art performance of
our method. Our code is available at: https://github.com/MontaEllis/SD-GAN.
- Abstract(参考訳): 顔画像合成のためのgans(generative adversarial network)における潜在コード操作は、主に連続的な属性合成(例えば、年齢、ポーズ、感情)に重点を置いているが、フェイスマスクや眼鏡のような離散的な属性合成は、あまり注目されていない。
顔の離散属性に直接既存の作品を適用すると、不正確な結果が生じる可能性がある。
本研究では,SD-GANと呼ばれる意味分解による顔の離散属性合成に挑戦する革新的な枠組みを提案する。
具体的には、離散属性表現を2つのコンポーネント、すなわちセマンティクスの事前基底とオフセットの潜在表現に明示的に分解する。
セマンティック事前ベースは、潜在空間における顔表現を操作する初期化方向を示す。
3D対応セマンティックフュージョンネットワークによって得られるオフセット潜在プレゼンテーションを提案し,事前調整を行った。
さらに、融合ネットワークは3D埋め込みを統合し、アイデンティティ保存と離散属性合成を改善する。
先行基底とオフセット潜在表現の組み合わせにより, 個別属性を持つフォトリアリスティックな顔画像の合成が可能となる。
特に,既存のデータセットにおける個別属性の欠如を解消するために,大規模で価値のあるMEGN(Face Mask and Eyeglasses images crawled from Google and Naver)を構築した。
大規模定性的および定量的実験により,本手法の最先端性能を実証した。
私たちのコードは、https://github.com/MontaEllis/SD-GAN.comで利用可能です。
関連論文リスト
- Analyzing the Feature Extractor Networks for Face Image Synthesis [0.0]
本研究では,FID,KID,Precision/Recallといったさまざまな指標を考慮した多様な特徴抽出器(InceptionV3,CLIP,DINOv2,ArcFace)の挙動について検討した。
実験には、$L$正規化、抽出中のモデル注意、機能空間におけるドメイン分布など、機能に関する詳細な分析が含まれている。
論文 参考訳(メタデータ) (2024-06-04T09:41:40Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - One-Shot Synthesis of Images and Segmentation Masks [28.119303696418882]
画像合成とGAN(Generative Adversarial Network)とのセグメンテーションマスクの併用により,画像データをピクセル単位のアノテーションで収集する作業の削減が期待されている。
高忠実な画像マスク合成を学習するために、既存のGANアプローチは、大量の画像データを必要とする事前学習フェーズを必要とする。
我々は,1ショット方式で生成した画像に正確に整合したセグメンテーションマスクの合成を可能にするOSMISモデルを提案する。
論文 参考訳(メタデータ) (2022-09-15T18:00:55Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。