論文の概要: Facial Expression Translation using Landmark Guided GANs
- arxiv url: http://arxiv.org/abs/2209.02136v1
- Date: Mon, 5 Sep 2022 20:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:32:55.288414
- Title: Facial Expression Translation using Landmark Guided GANs
- Title(参考訳): ランドマーク誘導型GANを用いた顔表情変換
- Authors: Hao Tang, Nicu Sebe
- Abstract要約: 表情から表現への変換のための強力なランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。
提案したLandmarkGANは,1つの画像のみを用いて,最先端のアプローチよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 84.64650795005649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a simple yet powerful Landmark guided Generative Adversarial
Network (LandmarkGAN) for the facial expression-to-expression translation using
a single image, which is an important and challenging task in computer vision
since the expression-to-expression translation is a non-linear and non-aligned
problem. Moreover, it requires a high-level semantic understanding between the
input and output images since the objects in images can have arbitrary poses,
sizes, locations, backgrounds, and self-occlusions. To tackle this problem, we
propose utilizing facial landmark information explicitly. Since it is a
challenging problem, we split it into two sub-tasks, (i) category-guided
landmark generation, and (ii) landmark-guided expression-to-expression
translation. Two sub-tasks are trained in an end-to-end fashion that aims to
enjoy the mutually improved benefits from the generated landmarks and
expressions. Compared with current keypoint-guided approaches, the proposed
LandmarkGAN only needs a single facial image to generate various expressions.
Extensive experimental results on four public datasets demonstrate that the
proposed LandmarkGAN achieves better results compared with state-of-the-art
approaches only using a single image. The code is available at
https://github.com/Ha0Tang/LandmarkGAN.
- Abstract(参考訳): 本稿では,表現から表現への変換が非線形で非整合的な問題であるため,コンピュータビジョンにおいて重要かつ困難な課題である,単一の画像を用いた表情から表現への変換のためのシンプルなランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。
さらに、画像内のオブジェクトは任意のポーズ、サイズ、場所、背景、自己閉塞を持つことができるため、入力画像と出力画像の間で高いレベルの意味理解が必要である。
この問題に対処するため,我々は顔のランドマーク情報を明示的に活用することを提案する。
難しい問題なので、それを2つのサブタスクに分割しました。
(i)カテゴリー案内ランドマーク生成、及び
(二)ランドマーク誘導表現対表現翻訳
2つのサブタスクは、生成されたランドマークと表現の相互改善されたメリットを楽しむことを目的として、エンドツーエンドでトレーニングされる。
現在のキーポイント誘導アプローチと比較して、LandmarkGANは様々な表現を生成するために単一の顔画像しか必要としない。
4つの公開データセットに対する大規模な実験結果から、提案したLandmarkGANは、単一の画像のみを使用して、最先端のアプローチよりも優れた結果が得られることが示された。
コードはhttps://github.com/ha0tang/landmarkganで入手できる。
関連論文リスト
- Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients [0.0]
本稿では,Contrastive Unpaired Translation (CUT)モデルに基づく,教師なし画像から画像への変換手法を提案する。
この新しいアプローチは、セマンティックラベルなしでも画像のセマンティック構造を確実に保存する。
本手法は,GTA5データセットから都市景観データセットのリアルな都市シーンへの合成ゲーム環境の変換について検討した。
論文 参考訳(メタデータ) (2024-09-24T12:44:27Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Learning Semantic Person Image Generation by Region-Adaptive
Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。
第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。
第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T06:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。