論文の概要: SMILE: Semantically-guided Multi-attribute Image and Layout Editing
- arxiv url: http://arxiv.org/abs/2010.02315v1
- Date: Mon, 5 Oct 2020 20:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:57:55.332078
- Title: SMILE: Semantically-guided Multi-attribute Image and Layout Editing
- Title(参考訳): smile: 意味的に指示された複数属性画像とレイアウト編集
- Authors: Andr\'es Romero, Luc Van Gool, Radu Timofte
- Abstract要約: GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
- 参考スコア(独自算出の注目度): 154.69452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attribute image manipulation has been a very active topic since the
introduction of Generative Adversarial Networks (GANs). Exploring the
disentangled attribute space within a transformation is a very challenging task
due to the multiple and mutually-inclusive nature of the facial images, where
different labels (eyeglasses, hats, hair, identity, etc.) can co-exist at the
same time. Several works address this issue either by exploiting the modality
of each domain/attribute using a conditional random vector noise, or extracting
the modality from an exemplary image. However, existing methods cannot handle
both random and reference transformations for multiple attributes, which limits
the generality of the solutions. In this paper, we successfully exploit a
multimodal representation that handles all attributes, be it guided by random
noise or exemplar images, while only using the underlying domain information of
the target domain. We present extensive qualitative and quantitative results
for facial datasets and several different attributes that show the superiority
of our method. Additionally, our method is capable of adding, removing or
changing either fine-grained or coarse attributes by using an image as a
reference or by exploring the style distribution space, and it can be easily
extended to head-swapping and face-reenactment applications without being
trained on videos.
- Abstract(参考訳): 属性画像操作は、GAN(Generative Adversarial Networks)の導入以来、非常に活発なトピックである。
異なるラベル(眼鏡、帽子、髪、アイデンティティなど)が同時に共存できる、顔画像の多重かつ相互に排他的な性質のため、トランスフォーメーション内で不連続な属性空間を探索することは非常に難しい作業である。
いくつかの研究は、条件付きランダムベクトルノイズを用いて各ドメイン/属性のモダリティを利用するか、模範画像からモダリティを抽出する。
しかし、既存の方法は複数の属性に対するランダム変換と参照変換の両方を扱えないため、解の一般性は制限される。
本稿では,対象領域の下位領域情報のみを使用しながら,ランダムノイズや模範画像によって誘導されるような,全ての属性を処理するマルチモーダル表現をうまく活用する。
顔データセットの質的および定量的な分析結果と,提案手法の優位性を示すいくつかの属性について述べる。
また,画像の参照やスタイル分布空間の探索により,細かな属性や粗い属性を付加,削除,変更することが可能であり,ビデオの訓練を受けることなく,簡単にヘッドスワッピングや顔再現アプリケーションに拡張することができる。
関連論文リスト
- Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with
Learned Morph Maps [94.10535575563092]
本稿では,複数の関連ドメインから一貫した画像サンプルを同時に生成できる生成逆ネットワークを提案する。
各ドメインにまたがる共有特徴を学習するポリモルフィックGANと、各ドメインに応じて共有特徴を共有化するためのドメインごとのモルフィック層を提案する。
論文 参考訳(メタデータ) (2022-06-06T21:03:02Z) - Attribute Group Editing for Reliable Few-shot Image Generation [85.52840521454411]
本稿では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
論文 参考訳(メタデータ) (2022-03-16T06:54:09Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - FacialGAN: Style Transfer and Attribute Manipulation on Synthetic Faces [9.664892091493586]
FacialGANは、リッチなスタイル転送と対話的な顔属性操作を可能にする新しいフレームワークである。
モデルが視覚的に説得力のある結果を生み出す能力は,スタイル伝達,属性操作,多様性,顔認証などである。
論文 参考訳(メタデータ) (2021-10-18T15:53:38Z) - Explaining in Style: Training a GAN to explain a classifier in
StyleSpace [75.75927763429745]
本稿では,画像の意味的属性を説明するための生成モデルの学習法であるstylexを提案する。
StylExは、セマンティックとよく調和し、意味のある画像固有の説明を生成し、人間に解釈できる属性を見つけます。
その結果,この手法はセマンティックとよく一致し,意味のある画像特異的な説明を生成し,人間と解釈できる属性を見出した。
論文 参考訳(メタデータ) (2021-04-27T17:57:19Z) - TriGAN: Image-to-Image Translation for Multi-Source Domain Adaptation [82.52514546441247]
本稿では,ジェネレーティブ・アドバイサル・ネットワークに基づくマルチソース・ドメイン適応(MSDA)の最初のアプローチを提案する。
本手法は,画像の出現がドメイン,スタイル,内容の3つの要因に依存するという観察に着想を得たものである。
提案手法はMSDAベンチマークを用いて試行し,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。