論文の概要: Fine-Grained Expression Manipulation via Structured Latent Space
- arxiv url: http://arxiv.org/abs/2004.09769v2
- Date: Sun, 10 May 2020 08:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:06:28.255082
- Title: Fine-Grained Expression Manipulation via Structured Latent Space
- Title(参考訳): 構造化潜在空間によるきめ細かい表現操作
- Authors: Junshu Tang, Zhiwen Shao, Lizhuang Ma
- Abstract要約: 本稿では,表現の微粒化を操作するために,エンド・ツー・エンドな表現誘導型生成対向ネットワーク(EGGAN)を提案する。
提案手法は,微粒な表現を操作でき,ソースとターゲットの表現間の連続的な中間表現を生成する。
- 参考スコア(独自算出の注目度): 30.789513209376032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained facial expression manipulation is a challenging problem, as
fine-grained expression details are difficult to be captured. Most existing
expression manipulation methods resort to discrete expression labels, which
mainly edit global expressions and ignore the manipulation of fine details. To
tackle this limitation, we propose an end-to-end expression-guided generative
adversarial network (EGGAN), which utilizes structured latent codes and
continuous expression labels as input to generate images with expected
expressions. Specifically, we adopt an adversarial autoencoder to map a source
image into a structured latent space. Then, given the source latent code and
the target expression label, we employ a conditional GAN to generate a new
image with the target expression. Moreover, we introduce a perceptual loss and
a multi-scale structural similarity loss to preserve identity and global shape
during generation. Extensive experiments show that our method can manipulate
fine-grained expressions, and generate continuous intermediate expressions
between source and target expressions.
- Abstract(参考訳): きめ細かい表情の操作は難しい問題であり、きめ細かい表情の詳細を捉えるのは難しい。
既存の式操作手法のほとんどは、グローバル式を編集し、詳細の操作を無視する離散式ラベルに依存している。
この制限に対処するために,構造化潜在コードと連続表現ラベルを入力として,期待表現を持つ画像を生成するeggan(end-to-end expression-guided generative adversarial network)を提案する。
具体的には、ソース画像を構造化された潜在空間にマッピングするために、対向オートエンコーダを採用する。
そして、ソース潜時符号とターゲット表現ラベルを考慮し、条件付きGANを用いて、ターゲット表現を持つ新しい画像を生成する。
さらに、世代間のアイデンティティとグローバルな形状を維持するために、知覚的損失と多スケール構造的類似性損失を導入する。
広範な実験により,本手法は細粒度表現を操作でき,ソース表現とターゲット表現の連続的な中間表現を生成できることを示した。
関連論文リスト
- LatentAvatar: Learning Latent Expression Code for Expressive Neural Head
Avatar [60.363572621347565]
我々は,潜在性発現コードによって駆動される表現型神経頭アバターであるLatentAvatarを提示する。
LatentAvatarは、挑戦的な表情や、歯や眼球の微妙な動きを捉えることができる。
論文 参考訳(メタデータ) (2023-05-02T03:49:12Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Identity-aware Facial Expression Recognition in Compressed Video [27.14473209125735]
最大2桁の圧縮された領域では、残留フレームから式を明示的に推測することができる。
私達は同一人物からの同一証明ラベルか複数の表現のサンプルを同一証明の除去のために必要としません。
私たちのソリューションは、最近のデコードされたイメージベースメソッドと同等あるいは優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-01T21:03:13Z) - Mutual Information Regularized Identity-aware Facial
ExpressionRecognition in Compressed Video [27.602648102881535]
本稿では,相互情報(MI)を最小化するための新しい協調ミンミニゲームを提案する。
同一人物からの識別ラベルや複数の表現サンプルは不要である。
我々のソリューションは、最近のデコードされた画像ベース手法に匹敵する、あるいは優れた性能を実現することができる。
論文 参考訳(メタデータ) (2020-10-20T21:42:18Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z) - An Efficient Integration of Disentangled Attended Expression and
Identity FeaturesFor Facial Expression Transfer andSynthesis [6.383596973102899]
本稿では,AIP-GAN(Attention-based Identity Preserving Generative Adversarial Network)を提案する。
私たちのキーとなる洞察は、アイデンティティ保存ネットワークは、効率的な表情の転送と合成のために、形状、外観、表現情報を分離して構成できるべきであるということです。
論文 参考訳(メタデータ) (2020-05-01T17:14:53Z) - Cascade EF-GAN: Progressive Facial Expression Editing with Local Focuses [49.077232276128754]
本稿では,局所的な表現に焦点を当てたプログレッシブな表情編集を行う新しいネットワークを提案する。
ローカルフォーカスの導入により、Cascade EF-GANはアイデンティティ関連の機能をよりよく保存できる。
さらに, 大規模な顔表情変換を, カスケード内の複数の小さな顔に分割することで, 斬新なカスケード変換戦略を設計する。
論文 参考訳(メタデータ) (2020-03-12T17:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。