論文の概要、ライセンス

# (参考訳) 外観適応正規化を用いたワンショット顔再現 [全文訳有]

One-shot Face Reenactment Using Appearance Adaptive Normalization ( http://arxiv.org/abs/2102.03984v1 )

ライセンス: CC BY 4.0
Guangming Yao, Yi Yuan, Tianjia Shao, Shuang Li, Shanqi Liu, Yong Liu, Mengmeng Wang, Kun Zhou(参考訳) 本稿では,1枚の顔画像から異なるポーズ・アンド・エクスプレッション(駆動画像で示される)にアニメーション化できる,一発顔再現のための新たな生成対向ネットワークを提案する。 我々のネットワークのコアは外観適応正規化と呼ばれる新しいメカニズムであり、学習された適応パラメータを用いて生成者の特徴マップを変調することにより、入力画像からの外観情報を顔ジェネレータに効果的に統合することができる。 さらに、まず局所的な顔成分(目、鼻、口)を再現するローカルネットを特別に設計する。これはネットワークにとって学習がはるかに容易な作業であり、顔発生器をガイドする明示的なアンカーを提供し、グローバルな外観とポーズ・アンド・表現を学ぶことができる。 広範な定量的および定性的な実験は、以前のワンショット法と比較して、我々のモデルの有意な有効性を示す。

The paper proposes a novel generative adversarial network for one-shot face reenactment, which can animate a single face image to a different pose-and-expression (provided by a driving image) while keeping its original appearance. The core of our network is a novel mechanism called appearance adaptive normalization, which can effectively integrate the appearance information from the input image into our face generator by modulating the feature maps of the generator using the learned adaptive parameters. Furthermore, we specially design a local net to reenact the local facial components (i.e., eyes, nose and mouth) first, which is a much easier task for the network to learn and can in turn provide explicit anchors to guide our face generator to learn the global appearance and pose-and-expression. Extensive quantitative and qualitative experiments demonstrate the significant efficacy of our model compared with prior one-shot methods.
公開日: Mon, 8 Feb 2021 03:36:30 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
One-shot Face Reenactment Using Appearance Adaptive Normalization 外観適応正規化を用いたワンショット顔再現 0.60
Guangming Yao1*, Tianjia Shao∗2, Yi Yuan 1†, Shuang Li3, Shanqi Liu3, Yong Liu4, Mengmeng Guangming Yao1*, Tianjia Shao∗2, Yi Yuan 1', Shuang Li3, Shanqi Liu3, Yong Liu4, Mengmeng 0.95
Wang4, Kun Zhou2 1 NetEase Fuxi AI Lab Wang4, Kun Zhou2 1 NetEase Fuxi AI Lab 0.98
2 State Key Lab of CAD&CG, Zhejiang University 清江大学CAD&CGの2つの国家キーラボ。 0.68
3 School of Computer Science and Technology, Beijing Institute of Technology 北京工業大学コンピュータ科学科3年生。 0.51
4 Institute of Cyber-Systems and Control, Zhejiang University 清江大学サイバーシステム・制御研究所4号館 0.76
1 2 0 2 b e F 8 1 2 0 2 b e F 8 0.85
] V C . ] V C。 0.79
s c [ 1 v 4 8 9 3 0 sc [ 1 v 4 8 9 3 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
yaoguangming@corp.ne tease.com, tjshao@zju.edu.cn, yuanyi@corp.netease. com, shuangli@bit.edu.cn, yaoguangming@corp.ne tease.com, tjshao@zju.edu.cn, yuanyi@corp.netease. com, shuangli@bit.edu.cn 0.62
shanqiliu@zju.edu.cn , yongliu@iipc.zju.edu .cn, mengmengwang@zju.edu .cn, kunzhou@acm.org shanqiliu@zju.edu.cn , yongliu@iipc.zju.edu .cn, mengmengwang@zju.edu .cn, kunzhou@acm.org 0.59
Abstract The paper proposes a novel generative adversarial network for one-shot face reenactment, which can animate a single face image to a different pose-and-expression (provided by a driving image) while keeping its original appearance. 概要 本稿では,1枚の顔画像から異なるポーズ・アンド・エクスプレッション(駆動画像で示される)にアニメーション化できる,一発顔再現のための新たな生成対向ネットワークを提案する。 0.60
The core of our network is a novel mechanism called appearance adaptive normalization, which can effectively integrate the appearance information from the input image into our face generator by modulating the feature maps of the generator using the learned adaptive parameters. 我々のネットワークのコアは外観適応正規化と呼ばれる新しいメカニズムであり、学習された適応パラメータを用いて生成者の特徴マップを変調することにより、入力画像からの外観情報を顔ジェネレータに効果的に統合することができる。 0.76
Furthermore, we specially design a local net to reenact the local facial components (i.e., eyes, nose and mouth) first, which is a much easier task for the network to learn and can in turn provide explicit anchors to guide our face generator to learn the global appearance and pose-and-expression. さらに、まず局所的な顔成分(目、鼻、口)を再現するローカルネットを特別に設計する。これはネットワークにとって学習がはるかに容易な作業であり、顔発生器をガイドする明示的なアンカーを提供し、グローバルな外観とポーズ・アンド・表現を学ぶことができる。 0.76
Extensive quantitative and qualitative experiments demonstrate the significant efficacy of our model compared with prior one-shot methods. 広範な定量的および定性的な実験は、以前のワンショット法と比較して、我々のモデルの有意な有効性を示す。 0.51
Introduction In this paper we seek a one-shot face reenactment network, which can animate a single source image to a different poseand-expression (provided by a driving image) while keeping the source appearance (i.e identity). はじめに 本論文では、ソースの外観(すなわちアイデンティティ)を維持しながら、単一のソースイメージを異なるポーズ&表現(駆動画像によって提供される)にアニメーション化できるワンショット顔再現ネットワークを求める。 0.65
We start with the perspective that a face image can be divided into two parts, the pose-and-expression and the appearance, which is also adopted by previous work (Zhang et al. まず、前作(Zhang et al.)でも採用されているポーズ&表現と外観の2つの部分に分けられるという視点から始めます。
訳抜け防止モード: まず、顔画像は2つの部分に分けられる、という視点から始める。 ポーズ, 表情, 外観 以前の作品(zhang et al.)でも採用されている。
0.69
2019). In face reenactment, the transferring of pose-and-expression is relatively easy because the training data can cover most possible poses and expressions. 2019). 顔の再現では、トレーニングデータが最も可能なポーズや表現をカバーできるため、ポーズと表現の転送は比較的容易である。 0.76
The main challenge of face reenactment is how to preserve the appearances of different identities. 顔の再現の主な課題は、異なるアイデンティティの外観を維持する方法である。 0.63
This insight motivates us to design a new architecture, which exploits a novel mechanism called the appearance adaptive normalization, to better control the feature maps of the face generator for the awareness of the source appearance. この洞察は、外観適応正規化と呼ばれる新しいメカニズムを利用して、ソースの外観を認識するために顔生成器の特徴マップをよりよく制御する新しいアーキテクチャを設計する動機づけます。 0.85
In general, the appearance adaptive normalization can effectively integrate the specific appearance information from the source image into the synthesized image, by modulating the feature maps of the face generator. 一般に、表情適応正規化は、顔生成器の特徴地図を変調することにより、ソース画像からの特定の外観情報を合成画像に効果的に統合することができる。 0.75
Especially, the appearance adaptive normalization learns specific adaptive parameters (i.e., mean and variance) from the source image, which 特に、外観適応正規化は、ソース画像から特定の適応パラメータ(平均と分散)を学習する。 0.71
*Both authors contributed equally to this research. ※著者も同等にこの研究に貢献した。 0.67
†Correspongding author Copyright © 2021, Association for the Advancement of Artificial Intelligence (www.aaai.org). 著述家。 著作権 2021, association for the advancement of artificial intelligence (www.aaai.org) 0.58
All rights reserved. are utilized to modulate feature maps in the generator. 全権利保有。 ジェネレータ内の特徴マップを 調整するのに使われます 0.65
In this way, the face generator can be better aware of the appearance of the source image and effectively preserve the source appearance. このようにして、顔生成装置は、ソース画像の出現をよりよく認識し、ソースの外観を効果的に保持することができる。 0.66
The appearance adaptive normalization is inspired by recent adaptive normalization methods (Huang and Belongie 2017; Park et al. 適応正規化は最近の適応正規化法(Huang and Belongie 2017; Park et al)にインスパイアされている。 0.67
2019), which perform cross-domain image generation without retraining for a specific domain. 特定のドメインを再トレーニングすることなく、クロスドメイン画像生成を実行する。 0.72
This attribute makes adaptive normalization potentially suitable for one-shot face reenactment, in which each identity could be seen as a domain. この属性は、各アイデンティティをドメインと見なすことができるワンショットの顔再現に適応正規化を適している可能性がある。 0.64
However, there exists a key challenge to apply these adaptive normalization methods to face reenactment. しかし、これらの適応正規化法を再現に応用するには重要な課題がある。 0.62
That is, these existing adaptive normalization methods are all designed to deal with the pixel-aligned imageto-image translation problems. すなわち、これら既存の適応正規化手法はすべて、ピクセル対応画像-画像変換問題に対処するように設計されている。
訳抜け防止モード: つまり既存の適応正規化法は ピクセル - アライメントされたイメージto - 画像翻訳問題に対処する。
0.77
For example, in (Park et al. 例えば in (park et al.) などです。 0.77
2019) they propose spatially-adaptive normalization for synthesizing photorealistic images given an input semantic layout. 2019) 入力セマンティックレイアウトが与えられたフォトリアリスティック画像の空間適応正規化を提案する。 0.71
However, in the scenario of face reenactment, the source and driving images are not pixel-aligned. しかし、顔再現のシナリオでは、ソースイメージと駆動イメージはピクセルアライメントされない。 0.70
Such pixel misalignment makes it difficult to optimize the adaptive normalization layers during training in existing methods. このような画素ミスアライメントは、既存の方法でのトレーニング中に適応正規化層を最適化することが困難になる。 0.59
Consequently, the existing methods will yield distorted images after reenactment, and we will show it in the experiments. その結果, 既存手法では再現後の歪み画像が得られ, 実験で示すことができる。 0.72
To tackle this challenge, one key insight of our work is that instead of learning individual adaptive parameters for different adaptive normalization layers using independent architectures, we can use a unified network to learn all the adaptive parameters from the source image in a global way. この課題に対処するために、我々の研究の重要な洞察は、独立したアーキテクチャを使って、異なる適応正規化層に対して個々の適応パラメータを学習する代わりに、統一ネットワークを使用して、ソースイメージからすべての適応パラメータをグローバルに学習できるということです。
訳抜け防止モード: この課題に取り組むために 私たちの仕事の重要な洞察の一つは 独立アーキテクチャを用いた異なる適応正規化層に対する個別適応パラメータの学習 統一されたネットワークを使って ソース画像から全ての適応パラメータをグローバルに学習する。
0.84
The benefit of such paradigm is, by jointly learning the adaptive parameters, the different adaptive normalization layers can be globally modulated rather than being modulated locally. このようなパラダイムの利点は、適応パラメータを共同で学習することで、異なる適応正規化レイヤをローカルに変調するのではなく、グローバルに調整できることである。 0.59
In this way, we can effectively optimize the adaptive normalization layers and control the feature maps of face generator to keep the source appearance. このように、適応正規化層を効果的に最適化し、顔生成器の特徴マップを制御し、ソースの外観を維持することができる。
訳抜け防止モード: このように、適応正規化層を効果的に最適化できる。 フェースジェネレータの特徴マップを制御し ソースの外観を維持するためです
0.81
Specifically, we design a simple but effective skip-connected network to predict the adaptive parameters from the source image, which can explicitly promote the relations within adaptive parameters for different adaptive normalization layers, and thus effectively propagate the appearance information throughout the network during reenacting. 具体的には、異なる適応正規化層に対する適応パラメータ内の関係を明示的に促進し、再帰中にネットワーク全体の出現情報を効果的に伝達する、ソース画像からの適応パラメータを予測するための、単純かつ効果的なスキップ接続ネットワークを設計する。 0.76
We make another key observation that, compared with reenacting the whole faces with largely varying appearances and expressions, reenacting the local facial components (i.e., また,表情や表情が大きく異なる顔全体を再現するのに比べ,局所的な顔成分(例えば)を再現する点も重要視している。 0.68
英語(論文から抽出)日本語訳スコア
Figure 1: Generated examples by our method. 図1: 我々の方法による例の生成。 0.82
The source image provides the appearance and different driving images provide different expressions and head poses. ソースイメージは外観を提供し、異なる駆動イメージは異なる表現とヘッドポーズを提供する。 0.79
The reenacted face has the same appearance as the source and the same pose-andexpression as the driving. 再現された顔は、ソースと同じ外観で、駆動と同じポーズ・アンド・プレッションを有する。 0.68
Both the source and driving images are unseen in the training stage. 訓練段階では、ソース画像とドライブ画像の両方が見えない。 0.69
eyes, nose, and mouth) is a much easier task for the network to learn. 目、鼻、口)は、ネットワークが学ぶためのはるかに簡単なタスクです。 0.76
It is because the space of appearance and pose-andexpression is significantly reduced for these local regions. これは、これらの地域の外観とポーズ&表現のスペースが大幅に減少するためです。 0.68
To this end, we can learn the reenactment of these local regions first, which can in turn provide explicit anchors to guide our generator to learn the global appearance and poseand-expression. この目的のために、まずこれらの局所領域の再現を学習し、その結果、生成元を案内し、グローバルな外観とポーズアンド表現を学ぶための明示的なアンカーを提供することができる。 0.55
Especially, the landmarks are utilized to locate the source and target positions of each face component, so the network only needs to learn the reenactment of these components locally. 特にランドマークは各顔成分のソース位置とターゲット位置を特定するために利用されており、ネットワークはこれらの成分の局所的な再現を学習するのみである。 0.81
After local reenacting, the synthesized face components are transformed to the target positions and scales with a similarity transformation and fed to the global generator for the global face synthesis. 局所的再現後、合成顔成分はターゲット位置へ変換され、類似性変換によりスケールし、グローバルな顔合成のためのグローバルジェネレータに供給される。 0.81
In summary, we propose a novel framework for one-shot face reenactment, which utilizes appearance adaptive normalization to better preserve the appearance during reenacting and local facial region reenactment to guide the global synthesis of the final image. そこで,本稿では,表情適応正規化を利用したワンショット顔再現のための新しい枠組みを提案し,再現時の外観の保存と,最終画像のグローバル合成を導く局所顔領域再現を提案する。 0.77
Our model only requires one source image to provide the appearance and one driving image to provide the pose-and-expression, both of which are unseen in the training data. 我々のモデルでは、トレーニングデータには見えないポーズ・アンド・エクスプレッションを提供するために1つのソース画像と1つの駆動画像のみを必要とする。 0.71
The experiments on a variety of face images demonstrate that our method outperforms the state-of-the-art one-shot methods in both objective and subjective aspects (e.g., photo-realism and appearance preservation). 種々の顔画像に対する実験により,本手法は客観的,主観的両面(フォトリアリズム,外観保存など)において,最先端のワンショット手法よりも優れていることが示された。 0.64
The main contributions of our work are: 私たちの仕事の主な貢献は 0.69
1) We propose a novel method for one-shot face reenactment, which animates the source face to another poseand-expression while preserving its original appearance using only one source image. 1) ソース画像のみを用いて元の外観を保ちつつ、ソース面を別のポーズと表現にアニメーターする新しいワンショット顔再現法を提案する。 0.77
In particular, we propose an appearance adaptive normalization mechanism to better retain the appearance. 特に,外観を良好に保つために,外観適応正規化機構を提案する。 0.79
2) We introduce the reenactment of local facial regions to 2) 局所的な顔領域の再現について紹介する。 0.62
guide the global synthesis of the final reenacted face. 最終再現顔の グローバルな合成を導いてくれ。 0.76
3) Extensive experiments show that our method is able to synthesize reenacted images with both high photo-realism and appearance preservation. 3) 広範囲な実験により, 高いフォトリアリズムと外観保存を両立させた再現画像の合成が可能となった。 0.72
Related Work Face Reenactment Face reenactment is a special conditional face synthesis task that aims to animate a source face image to a pose-andexpression of driving face. 関連作品 Face Reenactment Face Reenactmentは、ソースフェイスイメージを運転面のポーズ&表現にアニメーション化することを目的とした特別な条件付き顔合成タスクです。 0.71
Common approaches to face reenactment could be roughly divided into two categories: many-to-one and many-to-many. 対面再現の一般的なアプローチは、多対一と多対多の2つのカテゴリに分けられる。 0.54
Many-to-one approaches perform face reenactment for a specific person. 多対一のアプローチは、特定の人の顔を再現します。 0.41
ReenactGAN (2018) utilizes CycleGAN (2017) to convert the facial boundary heatmaps between different persons, and hence promote the quality of the result synthesized by an identityspecific decoder. reenactgan (2018) は cyclegan (2017) を用いて顔境界ヒートマップを異なる人物間で変換し、識別固有のデコーダによって合成された結果の品質を高める。 0.65
Face2Face (2016) animates the facial expression of source video by swapping the source face with the rendered image. face2face (2016)は、ソースの表情をレンダリングされた画像に置き換えることで、ソースビデオの表情をアニメーション化する。 0.66
The method of Kim et al. Kim et al のメソッド。 0.65
(2018) can synthesize high-resolution and realistic facial images with GAN. (2018)は、高解像度でリアルな顔画像をGANで合成することができる。 0.56
However, all these methods require a large number of images of the specific identity for training and only reenact the specific identity. しかし、これらの手法はすべて、訓練のために特定のアイデンティティの多数の画像を必要とし、特定のアイデンティティのみを再現する。 0.56
On the contrary, our method is capable of reenacting any identity given only a single image without the need for retraining or fine-turning. 一方,本手法では,再訓練や微調整を必要とせず,単一の画像のみの同一性を再現することができる。 0.66
(2019) adopt To extend face reenactment to unseen identities, some many-to-many methods have been proposed recently. (2019年)養子 顔の再現を認識不能なアイデンティティに拡張するために、近年、複数の方法が提案されている。 0.56
Zakharov et al. the architecture of BigGAN (2018) and fashional meta-learning, which is capable of synthesizing a personalized talking head with several images, but it requires fine-tuning when a new person is introduced. ザハロフとアル。 BigGAN(2018)とファッションメタラーニングのアーキテクチャは、パーソナライズされた会話ヘッドを複数の画像と合成することができますが、新しい人物が導入されると微調整が必要です。 0.53
Zhang et al. Zhang et al. 0.85
(2019) propose an unsupervised approach to face reenactment, which does not need multiple poses for the same identity. (2019) 同一のアイデンティティに対して複数のポーズを必要とせず、教師なしで再現するアプローチを提案する。 0.63
Yet, the face parsing map, an identity-specific feature, is utilized to guide the reenacting, which leads to distorted results when reenacting a different identity. しかし、識別固有の特徴である顔解析マップは、再現を誘導するために利用され、異なるアイデンティティを再現する際に歪んだ結果をもたらす。 0.67
Geng et al. geng et al の略。 0.42
(2018) introduce warp-guided GANs for single-photo facial animation. (2018) 単眼顔アニメーションのためのワープ誘導型GANを導入。 0.59
However, their method needs a photo with frontal pose and neutral expression, while ours does not have this limitation. しかし,本手法では前頭葉のポーズと中性表現が必要とされるが,本手法ではこのような制限はない。 0.59
(Pumarola et al. (pumarola et al)。 0.75
2018) generates a face guided by action units (1978), which makes it difficult to handle pose changes. 2018年) アクションユニットによって案内された顔を生成し(1978年)、ポーズ変更の処理が困難になる。 0.62
X2Face (2018) is able to animate a face under the guidance of pose, expression, and audio, but it can not generate face regions that do not exist in x2face (2018) はポーズ、表情、音声の指導の下で顔をアニメーション化することができるが、存在しない顔領域を生成することはできない。 0.83
SourceDrivingResultS ourceDrivingResult ソース実行結果 ソース実行結果 0.21
英語(論文から抽出)日本語訳スコア
Figure 2: The architecture of generator of our proposed method. 図2:提案手法のジェネレータのアーキテクチャ。 0.55
original images. MonkeyNet (2019a) provides a framework for animating general objects. オリジナル画像。 MonkeyNet (2019a)は汎用オブジェクトのアニメーションのためのフレームワークを提供する。 0.73
However, the unsupervised keypoints detection may lead to distorted results in the oneshot case. しかし、教師なしのキーポイント検出は、ワンショットケースで歪んだ結果をもたらす可能性がある。 0.50
MarioNetTe (2019) proposes the landmark transformer to preserve the source shape during reenactment, but it does not consider how to retain the source appearance. MarioNetTe (2019) は、再現中にソースの形状を保存するためにランドマーク変換器を提案するが、ソースの外観を維持する方法を考慮していない。 0.63
Different from previous many-to-many methods, our goal is to synthesize a high-quality face image, by learning the appearance adaptive parameters to preserve the source appearance and utilizing the local component synthesis to guide the global face synthesis. 従来の多対多の手法とは違って, 外観適応パラメータを学習し, 局所成分合成を利用してグローバルな顔合成を導くことにより, 高品質な顔画像の合成が目的である。 0.82
Adaptive normalization The idea of adapting features to different distributions has been successfully applied in a variety of image synthesis tasks (Huang and Belongie 2017; Park et al. 適応正規化 異なる分布に特徴を適用するというアイデアは、さまざまな画像合成タスク(Huang and Belongie 2017; Park et al)でうまく適用されている。 0.81
2019). The adaptive normalization normalizes the feature to zero mean and unit deviation first, and then the normalized feature is denormalized by modulating the feature using the learned mean and standard deviation. 2019). 適応正規化は、最初に特徴をゼロ平均と単位偏差に正規化し、学習された平均と標準偏差を使用して特徴を変調することによって正規化特徴を非正規化する。 0.75
In conditional BN (de Vries et al. 条件付きBN(de Vries et al。 0.68
2017; Zhang et al. 2017年、Zhangら。 0.60
2018), the fixed categorical images are synthesized using different parameters of the normalization layers for different categories. 固定された分類画像は、異なるカテゴリの正規化層の異なるパラメータを用いて合成される。 0.78
However, unlike the categorical image generation with fixed categories, the number of identities is unknown in the one-shot face reenactment. しかし、固定カテゴリのカテゴリ画像生成とは異なり、ワンショットの顔再現ではアイデンティティの数は不明である。 0.73
AdaIN (Huang and Belongie 2017) predicts the adaptive parameters for style transfer, which is spatially sharing. AdaIN(Huang and Belongie 2017)は、空間的に共有するスタイル転送の適応パラメータを予測します。 0.82
However, it is insufficient in controlling the global appearance, since the facial appearance is spatially varying. しかし、顔の外観が空間的に変化するため、グローバルな外観の制御には不十分である。 0.70
SPADE (Park et al. SPADE (Park et al)。 0.92
2019) deploys a spatially varying normalization, which makes it suitable for spatially varying situations. 2019年) 空間的に異なる正規化を展開し、空間的に異なる状況に適応する。 0.68
However, SPADE (Park et al. しかし、SPADE (Park et al)。 0.81
2019) is designed for 2019年)がデザインされている。 0.53
the pixel-aligned image translation task which uses independent blocks to locally predict the adaptive parameters for different layers. 独立したブロックを使用して異なる層に対する適応パラメータを局所的に予測するピクセルアライメント画像翻訳タスク。 0.76
In face reenactment, the source and driving images are not pixel-aligned, which makes it difficult to locally optimize the different adaptive normalization layers. 顔の再現では、ソースと駆動画像は画素整列ではないため、異なる適応正規化層を局所的に最適化することは困難である。 0.68
Hence, we propose the appearance adaptive normalization mechanism to globally predict adaptive parameters of different layers using a skip-connected network, which better promotes the relations within the adaptive parameters for different layers during transferring. そこで本研究では,異なる層間の適応パラメータ間の関係をより良く促進するために,スキップ接続ネットワークを用いて,異なる層の適応パラメータをグローバルに予測するルックス適応正規化機構を提案する。 0.76
Methodology j=1,. . 方法論 j=1。 . 0.80
. ,M i=1,. . . M i=1。 . 0.80
. ,Nj For convenience, we denote the images in the dataset as I j , where j denotes the identity index and i dei notes the image index of identity j. M is the number of identities and Nj is the number of images of identity j. i ∈ R68×H×W denotes the corresponding heatmaps for Sj i ∈ R3×H×W , where H and W the 68 facial landmarks of I j are the image height and width. . 、Nj i ∈ R68×H×W は、Sj i ∈ R3×H×W の対応するヒートマップであり、H と W は、Ij の68面のランドマークが画像の高さと幅である。
訳抜け防止モード: . 、Nj 利便性のため、データセット内のイメージを I j と表現します。 i dei は I のイメージ指数 j. M はアイデンティティの数、Nj はアイデンティティのイメージ数 j. i ∈ R68×H×W は Sj i ∈ R3×H×W の対応するヒートマップを表す。 ここで、HとWは、Ijの68の顔のランドマークであり、画像の高さと幅である。
0.81
Overview Our method is a generative adversarial method. 概説,本手法は生成的逆法である。 0.65
We adopt a self-supervised approach to train the network in an end-toend way, where the driving image Id has the same identity as Is in the training stage (i.e., two frames from a video). 私たちは、運転画像Idがトレーニング段階でIsと同じアイデンティティを持つエンドツーエンドの方法でネットワークを訓練する自己監督のアプローチを採用しています(すなわち、ビデオから2フレーム)。 0.80
The landmark transformer (Ha et al. ランドマークトランスフォーマー (ha et al.)。 0.61
2019) is utilized to improve the identity preservation. 2019年)はアイデンティティ保護の改善に活用されている。 0.59
Fig.2 shows the architecture of the proposed generator, which takes as input the source image Is and the driving image Id. 図2は、ソースイメージの入力として取得するジェネレータのアーキテクチャと、ドライブイメージidを示している。 0.76
Our generator is composed of 4 sub-nets, and all the 4 sub-nets are jointly trained in an end-to-end way. 我々のジェネレータは4つのサブネットから構成されており、4つのサブネットはすべてエンドツーエンドで共同で訓練されている。 0.57
First, to preserve the source appearance, we まず、ソースの外観を維持するために、私たちは 0.61
Appearance ExtractorFlow estimation modulesIlocalsSlocal sIlocaldSLocal netdIˆdIWarpˆlocaldIΘaFFusion netˆaFAppearance adaptive parameterssdF 出現抽出器流推定モジュールIlocalsSlocalsIlocal dSLocal netdI。 0.52
英語(論文から抽出)日本語訳スコア
send Is to the appearance extractor to learn the appearance adaptive parameters Θ as well as the encoded appearance feature Fa, as shown at the top of Fig. send I is to the appearance extractor to learn the appearance Adaptive parameters ? and the encoded appearance feature Fa, as shown in the top of Fig. 0.79
2. Second, to estimate the facial movements from the source image to the driving pose-and expression, the flow estimation module estimates the optical flow Fsd from Is to Id , which is then utilized to warp the encoded appearance feature, as shown in the middle of Fig. 2. 第二に、原画像から駆動ポーズと表現までの顔の動きを推定するために、フロー推定モジュールは、IsからIdまでの光フローFsdを推定し、その後、図の中央に示すように、符号化された外観特徴をワープするために利用される。 0.73
2. Third, the local net is deployed to reenact the local facial regions, which provides essential anchors to guide the subsequent synthesis of the whole face, as shown at the bottom of Fig. 2. 第三に、ローカルネットは、図の下部に示すように、顔全体のその後の合成を導くために不可欠なアンカーを提供するローカル顔領域を再活性化するために展開されます。 0.74
2. Finally, the fusion net fuses the adaptive parameters Θ, the reenacted local face regions ˆI local and the warped appearance feature ˆFa, to synthesize d the reenacted face. 2. 最終的に、融合ネットは、適応パラメータs,reenacted local face regions,reenacted local face regions, and the warped appearance features sFa を融合させ、reenacted faces をd に合成する。 0.75
By modulating the distribution of feature maps in the fusion net using the appearance adaptive parameters, we let Fsd determine the pose-and-expression, and Fa and Θ retain the appearance. 外観適応パラメータを用いて核融合ネット内の特徴マップの分布を変調することにより、Fsd がポーズと表現を決定し、Fa と s が出現を保ちます。 0.79
Figure 3: The procedure of flow estimation module. 図3: フロー推定モジュールの手順。 0.65
Flow Estimation Module The procedure of flow estimation module is illustrated in Fig. フロー推定モジュール フロー推定モジュールの手順を図に示します。 0.73
3. Firstly, we estimate landmarks for Is and Id to obtain the source heatmap Ss and the driving heatmap Sd respectively using OpenFace(Amos, Ludwiczuk, and Satyanarayanan 2016). 3. まず、OpenFace(Amos, Ludwiczuk, Satyanarayanan 2016)を用いて、IsとIdのランドマークを推定し、ソースヒートマップSsと駆動ヒートマップSdをそれぞれ取得した。 0.78
We then feed Ss and Sd into the flow estimation net (FEN) to produce an optical flow Fsd ∈ R2×H×W , representing the motion of poseand-expression. 次に、Ss と Sd をフロー推定ネット (FEN) に供給し、ポーズと表現の運動を表す光フロー Fsd ∈ R2×H×W を生成する。 0.75
Fsd is then utilized to warp the appearance feature Fa. 次に、Fsdを使用して外観特徴Faをワープする。 0.67
Bilinear sampling is used to sample Fsd to the spatial size of Fa. 双線形サンプリングは、FsdをFaの空間サイズにサンプリングするために用いられる。 0.71
The warped Fa is denoted as ˆFa, which is subsequently fed into the fusion net to synthesize the final reenacted face. 歪んだFaは、後に核融合ネットに供給され、最終的な再活性化面を合成する。 0.63
Besides, we also build the heatmaps of local regions for source and driving images based on the landmarks, denoted as Slocal respectively. また,ランドマークに基づいて画像のソースと駆動のためのローカル領域のヒートマップを構築し,それぞれSlocalと表記する。 0.69
The architecture of FEN is an hourglass net (Yang, Liu, and Zhang 2017), composed of several convolutional down-sampling and up-sampling layers. FENのアーキテクチャは時間ガラスネット(Yang, Liu, Zhang 2017)で、いくつかの畳み込みのダウンサンプリング層とアップサンプリング層で構成されている。 0.61
Notably, large shape differences between the source identity and the driving identity will lead to severe degradation of the quality of generated images, which is also mentioned by (Wu et al. 特に、ソースアイデンティティと駆動IDの大きな形状の違いは、(Wu et al)で言及されているように、生成された画像の品質を著しく劣化させる。 0.73
2018). To deal with this issue, we additionally adopt the landmark transformer (Ha et al. 2018). この問題に対処するため、ランドマーク変換器(Ha et al)も採用する。 0.73
2019), which edits the driving heatmap Sd so that Sd has a shape close to Ss. Sdは運転熱マップSdを編集し、SdがSsに近い形状になるようにしている。 0.78
For more details, please refer to (Ha et al. 詳細については、(Ha et al.)を参照してください。 0.67
2019). Local Net The local net Glocal is built with the U-Net structure (Ronneberger, Fischer, and Brox 2015). 2019). Local Net ローカルネットGlocalはU-Net構造で構築されている(Ronneberger, Fischer, Brox 2015)。 0.83
We reenact and Slocal 私たちは再演する slocalは 0.53
d s s s d , Slocal d s s s d 、S Local 0.83
and Slocal the left eye, right eye, nose and mouth with 4 independent networks Geyel, Geyer, Gnose, and Gmouth. slocalは 左目、右目、鼻、口の4つの独立したネットワークを持つGeyel、Geyer、Gnose、およびGmouth。 0.71
Each of them is a U-Net with three down-convolution blocks and three up-convolution blocks. それぞれが3つのダウンコンボリューションブロックと3つのアップコンボリューションブロックを持つU-Netである。 0.59
The inputs of each local generator , where local refers to the corare I local responding parts (i.e., left eye, right eye, nose and mouth) on the image and heatmap. 各ローカルジェネレータの入力は、画像とヒートマップ上のコラーレI局所応答部(すなわち、左目、右目、鼻、口)を指します。
訳抜け防止モード: 各ローカルジェネレータの入力は、ローカルがコラーレiローカル応答部分(すなわち、ローカル応答部分)を参照する。 画像の左目、右目、鼻、口)とヒートマップ。
0.67
The reenacted face local regions serve as anchor regions that can effectively guide the fusion net to synthesize the whole reenacted face. 再生面局所領域は、核融合網を効果的に誘導し、再生面全体を合成するアンカー領域として機能する。 0.51
Appearance Extractor The source image Is is fed into the appearance extractor Ea(Is) for predicting the adaptive parameters Θ and the appearance feature Fa. ソース画像Isは、適応パラメータaと外観特徴Faとを予測するための外観抽出器Ea(Is)に供給される。 0.76
Here Θ = {θi = (γi, βi), i ∈ {1, 2, ..., Na}}, where i is the index of the adaptive normalization layer and Na denotes the number of adaptive normalization layers in the fusion net. ここで θ = {θi = (γi, βi), i ∈ {1, 2, ..., na}} であり、ここで i は適応正規化層の指数であり、na は核融合網における適応正規化層の数を表す。 0.78
For a feature map Fi ∈ Rc×h×w in the fusion net, we have the corresponding γi, βi ∈ Rc×h×w to modulate it. 核融合網における特徴写像 Fi ∈ Rc×h×w に対して、対応する γi, βi ∈ Rc×h×w はそれを変調する。 0.78
The encoded source appearance feature Fa is warped to ˆFa using the optical flow Fsd, and Θ and ˆFa are fed to the fusion net for face synthesis by controlling the distributions of feature maps. エンコードされたソース出現特徴Faは、光学フローFsdを用いてイファにワープされ、イとイファは、特徴マップの分布を制御することにより、顔合成のための核融合ネットに供給される。 0.67
We employ the U-net (2015) architecture for the appearance extractor, because the skip-connection in appearance extractor can effectively promote the relations between adaptive parameters. 外観抽出器におけるスキップ接続は適応パラメータ間の関係を効果的に促進できるため,外観抽出器にはu-net (2015) アーキテクチャを用いる。 0.77
Figure 4: The fusion block of the proposed method. 図4: 提案手法の融合ブロック。 0.56
d Fusion Net The fusion net ˆId = Gf ( ˆI local , ˆFa, Θ) aims d to decode the reenacted local regions I local and the warped appearance feature ˆFa to a reenacted face image ˆId under the control of adaptive parameters Θ. Gf is a fully convolutional network, which performs decoding and up-sampling to synthesize the reenacted face. d 融合ネット 融合ネット ^ Id = Gf ( .I local , .Fa, .) は、再生成された局所領域 I 局所および歪んだ外観特徴 .Fa を、適応パラメータ . . Gf の制御下で、再生成された顔画像 .Id にデコードすることを目的としている。 0.75
Gf consists of several fusion blocks to adapt the source appearance, followed by several residual-connected convolution layers to produce the final result. Gfは、ソースの外観を適応させるためにいくつかの融合ブロックからなり、その後、いくつかの残留結合畳み込み層が最終結果を生成する。 0.53
The architecture of fusion block is illustrated in Fig. 核融合ブロックのアーキテクチャは図で示される。 0.72
4. Fi denotes the input feature map of i-th fusion block, γi and βi denote the i-th adaptive parameters and F Bi denotes the i-th fusion block. 4. fi は i-th fusion block の入力特徴マップ、γi と βi は i-th adaptive parameters、f bi は i-th fusion block を表す。 0.81
Before fed into the fusion block, the reenacted local regions ˆI local are similarly transformed to the target scale-and-position. 核融合ブロックに供給される前に、再活性化された局所領域「I局部」も同様に標的スケールと位置に変換される。 0.51
In this way, the aligned face regions provide explicit anchors to the generator. このように、整列面領域はジェネレータに明示的なアンカーを提供する。 0.55
These aligned ˆI local are then resized to the same spatial size as Fi using bilinear interpolation. これらのアライメントは、双線型補間を用いてfiと同じ空間サイズに再サイズされる。 0.73
At last, Fi and ˆI local are concatenated along the channel axis and fed into next 最終的に、Fi と ~I 局所はチャネル軸に沿って連結され、次に供給される 0.67
d d d Flow Estimation NetworkLandmark transformerLandmarks EstimatorsIsSdSdIloc alsSlocaldSsdFlocals SlocaldSConvReLUConv BNAdaptive normPixshuffleiFΘ,iiγβAlignment1iF+ˆlocaldIBNReLU d d d フロー推定 networklandmark transformerlandmarks estimatorsissdsdiloc alssdflocalssconvrel uconvbnadaptive normpixshuffleifθ,iiγβalignment1if+dlocaldibnrelu 0.69
英語(論文から抽出)日本語訳スコア
block of Gf . In this way, the formulation of fusion block can be written as: Gf のブロック。 このようにして、融合ブロックの定式化は次のように記述できる。 0.65
Fi+1 = F Bi([Fi, ˆI local Fi+1 = F Bi([Fi, )I local 0.99
(1) d The core of our fusion net is the appearance adaptive normalization mechanism. 1) d 私達の融合の網の中心は出現の適応の正規化のメカニズムです。 0.73
Specifically, the feature map is channel-wisely normalized by 具体的には、特徴マップをチャンネルワイズで正規化します。 0.58
], γi, βi). (cid:88) ],γi,βi)。 (cid:88) 0.81
µi c = (cid:115) 1 μi c = (cid:115)1 0.81
N H iW i 1 N H iW i 1 0.85
(cid:88) N H iW i (cid:88) N H iW i 0.82
n,h,w σi c = n,h,w σi c = 0.90
F i n,c,h,w, F i n,c,h,w, 0.85
n,h,w [(F i n,h,w [(F i) 0.83
n,c,h,w)2 − (µi n,c,h,w)2 − (μi) 0.97
c)2], (2) (3) c)2] (2) (3) 0.77
c and σi n,c,h,w is the feature map value before normalizawhere F i tion, and µi c are the mean and standard deviation of the feature map in channel c. The index of the normalized layer is denoted as i. c と σi n,c,h,wは通常のizawhere F i tionの前の特徴マップ値であり、μi cはチャネルcにおける特徴マップの平均および標準偏差である。
訳抜け防止モード: c と σi n, c, h, w は正規分布 f i tion の前に特徴写像値である。 μi c はチャネル c における特徴写像の平均および標準偏差であり、正規化層の指標は i と表記される。
0.85
Notably, the denormalization in adaptive normalization is element-wise, where the normalized feature map is denormalized by n,c,h,w − µi F i 特に、適応正規化における非正規化は要素回りであり、正規化特徴写像は n,c,h,w − μi F i によって非正規化される。 0.58
c + βi c,h,w. c +βi c,h,w. 0.84
(4) γi c,h,w (4) γi c,h,w 0.91
σi c c,h,w and βi σi c c,h,w,βi 0.83
Here γi c,h,w are the scale and bias learned by the appearance extractor from Is. ここでγi c,h,wはIsから外観抽出器によって学習されたスケールとバイアスです。 0.66
Besides, instead of using the transposed convolutional layer or the bilinear upsampling layer followed by a convolutional layer to expand the feature-map (Isola et al. さらに、転置畳み込み層または双線形アップサンプリング層を使用する代わりに、畳み込み層を使用して特徴マップを拡大します(Isola et al。 0.76
2017; Wang et al. 2017年、Wang et al。 0.73
2018), we adopt the pixel-shuffle (Shi et al. 2018年はpixel-shuffle(shi et al.)を採用しました。 0.51
2016) to upscale the feature map. 2016) 機能マップのスケールアップ。 0.75
Discriminator There are two discriminators in our method, a discriminator DL to discriminate whether the reenacted image and the driving heatmap are matched (pose-and-expression consistency) and a discriminator DI to discriminate whether the source and reenacted image share the same identity (appearance consistency). 判別器 再帰画像と駆動ヒートマップが一致しているかどうかを判別する識別器DLと、ソースと再帰画像が同一の同一性(出現整合性)を共有するか否かを判別する識別器DIとがある。 0.63
DL takes ˆId and Sd as input, while DI takes ˆId and Is as input. DLは入力として、Sdは入力として、DIは入力として、Idは入力として取ります。 0.45
ˆId is concatenated with Sd or Is along the channel axis, before being fed into DL or DI respectively. Sd または Is はチャネル軸に沿って結合され、それぞれ DL または DI に供給される。 0.76
To generate a sharp and realistic-looking image, the discriminators should have a large receptive field (Wang et al. シャープでリアルな画像を生成するには、差別者は大きな受容フィールド(Wang et al.)を持つ必要があります。
訳抜け防止モード: 鮮明で現実的な画像を生成する 判別者は大きな受容場(wang et al)を持つべきである。
0.71
2018). In our method, instead of using a deeper network with larger convolutional kernels, we use a multi-scale discriminator (Wang et al. 2018). 提案手法では,より大きな畳み込みカーネルを持つより深いネットワークを使う代わりに,マルチスケールの判別器(Wang et al)を用いる。 0.80
2018) which can improve the global consistency of generated images in multiple scales. これにより、複数のスケールで生成された画像のグローバル一貫性が向上する。 0.67
Loss function The total loss function is defined as: 損失関数 総損失関数を次のように定義する。 0.76
Ltotal = arg min G Ltotal = arg min G 0.85
max DL,DI λGAN LGAN + λcLc max DL,DI λGAN LGAN + λcLc 0.85
+λlocalLlocal., +λlocalLlocal。 0.63
(5) where Lc denotes the content loss, LGAN denotes the adversarial loss and Llocal denotes local region loss. (5) Lc はコンテンツ損失を表し、LGAN は逆損失を表し、Llocal はローカル領域損失を表す。 0.83
The adversarial loss is the GAN loss for DL and DI: [log DL(Id, Sd) + log(1 − DL( ˆId, Sd))] LGAN = E [log DI (Is, Id) + log(1 − DI (Is, ˆId, Id))] . 逆損失は DL と DI の GAN 損失である: [log DL(Id, Sd) + log(1 − DL( >Id, Sd))] LGAN = E [log DI (Is, Id) + log(1 − DI (Is, >Id, Id))] 0.76
(6) Is, ˆId,Sd (6) is, >Id,Sd 0.80
+ E Is, ˆId,Id The content loss is defined as: +E イド、イド、 コンテンツ損失は次のように定義される。 0.61
Lc = L1(Id, ˆId) + Lper(Id, ˆId), Lc = L1(Id, >Id) + Lper(Id, >Id) 0.92
(7) where L1(Id, ˆId) is the pixel-wise L1 loss, measuring the pixel distance between the generated image and the groundtruth image. (7) ここで、L1(Id, >Id)は、生成した画像と接地画像との間の画素距離を測定する画素単位のL1損失である。 0.77
Lper(Id, ˆId) is the perceptual loss (Johnson, Alahi, and Fei-Fei 2016), which has been shown to be useful for the task of image generation (Ledig et al. lper(id, ]id)は知覚的損失(johnson, alahi, fei-fei 2016)であり、画像生成のタスク(ledig et al)に有用であることが示されている。 0.73
2017). We make use of the pre-trained VGG (Simonyan and Zisserman 2014) to compute the perceptual loss, and Lper is written as: 2017). 我々は、事前訓練されたVGG(Simonyan and Zisserman 2014)を用いて知覚損失を計算し、Lperは次のように書いている。 0.79
Lper(Id, ˆId) = Ei∈X [||Φi(Id) − Φi( ˆId)||1], Lper(Id, ×Id) = Ei∈X [||*i(Id) − ^i( ×Id)||1], 0.94
(8) where X represents the layers we use in VGG and Φi(x) denotes the feature map of the i-th layer in X. (8) ここで x は vgg で使用する層を表し、 φi(x) は x の i 番目の層の特徴写像を表す。 0.75
The local region loss penalizes the perceptual differences between the reenacted local regions and the local regions on the ground-truth and is defined as: 地域的損失は、再現された地域と地上の地域との知覚的差異を罰し、次のように定義する。 0.69
Llocal = Lper(Ieyel, ˆIeyel) + Lper(Imouth, ˆImouth) L Local = Lper(Ieyel, .Ieyel) + Lper(Imouth, .Imouth) 0.93
+ Lper(Inose, ˆInose) + Lper(Ieyer, ˆIeyer). + Lper(Inose, >Inose) + Lper(Ieyer, >Ieyer) 0.81
(9) Experiments Implementation The learning rate for the generator and discriminator are set to 2e−5 and 1e−5 respectively. (9) 実験 実装 発生器と判別器の学習率はそれぞれ2e−5と1e−5に設定される。 0.77
We use Adam (Kingma and Ba 2014) as the optimizer. 最適化にはadam(kingmaとba 2014)を使用します。 0.65
Spectral Normalization (Miyato et al. スペクトル正規化 (miyato et al.)。 0.68
2018) is utilized for each convolution layer in the generator. 2018)はジェネレータの各畳み込み層で使用される。 0.63
We set λGAN = 10, λc = 5 and λlocal = 5 in the loss function. λGAN = 10, λc = 5 と λlocal = 5 を損失関数に設定する。 0.91
The Gaussian kernel variance of heatmaps is 3. 熱写像のガウス核の分散は3である。 0.63
Datasets and metrics Both the FaceForensics++ (R¨ossler et al. データセットとメトリクス FaceForensics++ (R sossler et al)の両方。 0.68
2019) and CelebDF (Li et al. 2019年)とCelebDF (Li et al)。 0.77
2019) datasets are used for quantitative and qualitative evaluation. 2019) データセットは定量的かつ質的評価に使用される。 0.70
The OpenFace (Amos, Ludwiczuk, and Satyanarayanan 2016) is utilized to detect the face and extract facial landmarks. OpenFace(Amos、Ludwiczuk、Satyanarayanan 2016)を使用して顔を検出し、顔のランドマークを抽出します。 0.78
Following the work of MarionNetTe(2019), we adopt the following metrics to quantitatively evaluate the reenacted faces of different methods. MarionNetTe(2019)の作業に続いて、異なる手法の再現面を定量的に評価するために、以下の指標を採用した。 0.65
Frechet Inception Distance (FID) (Heusel et al. Frechet Inception Distance (FID) (Heusel et al)。 0.82
2017) and structural similarity index (SSIM) (Wang et al. 2017年)と構造類似度指数(SSIM) (Wang et al。 0.77
2004) are utilized to measure the photographly similarity between the reenacted images and the ground-truth images. 2004) を用いて, 再現画像と接地トラス画像の類似度を測定した。 0.75
Those two metrics are only computed in the self-reenactment scenario since the ground-truth is inaccessible when reenacting a different person. これらの2つの指標は、異なる人物を再現する際に接地がアクセスできないため、自己再現シナリオでのみ計算される。 0.53
Then we evaluate the identity preservation by calculating the cosine similarity (CSIM) of identity vectors between the source image and the generated image. そして、ソース画像と生成された画像との間の同一ベクトルのコサイン類似度(csim)を算出し、同一性保存を評価する。 0.69
The identity vectors are extracted by the pre-trained state-of-theart face recognition networks (Deng et al. 識別ベクトルは、事前訓練された顔認識ネットワーク(deng等)によって抽出される。 0.65
2019). To inspect the model’s capability of properly reenacting the pose and expression of driving image, we calculate PRMSE (Ha et al. 2019). 運転画像のポーズや表現を適切に再現するモデルの能力を調べるために、PRMSE(Ha et al.)を計算します。 0.81
2019) and AUCON (Ha et al. 2019年)とAUCON (Ha et al)。 0.85
2019) between the generated image and the driving image to measure the reenacted pose and expression respectively. 2019) 生成された画像と駆動画像の間に、それぞれ再現されたポーズと表現を測定します。 0.66
英語(論文から抽出)日本語訳スコア
Figure 5: Qualitative comparison with state-of-the-art one-shot methods. 図5: 最先端のワンショットメソッドとの質的比較。 0.65
Our proposed method generates more natural-looking and sharp results compared to previous methods. 提案手法は従来の手法に比べてより自然で鋭い結果を生み出す。 0.70
Table 1: Quantitative comparison in the self-reenactment setting. 表1:自己再現設定における定量的比較。 0.73
Up/down arrows correspond to higher/lower values for better performance. アップ/ダウン矢印はより高い/低い値に対応し、パフォーマンスが向上する。 0.51
Bold and underlined numbers represent the best and the second-best values of each metric respectively. ボルドとアンダーラインの数値はそれぞれ各メトリックのベストとセカンドベストの値を表します。 0.79
Table 2: Quantitative comparison of reenacting a different identity. 表2:異なるアイデンティティの再処理の定量的比較。 0.80
Model CSIM↑ PRMSE↓ AUCON↑ モデル CSIM! PRMSEU AUCONU 0.57
Faceforensics++ (2019) Faceforensics++ (2019) 0.84
Model X2face(2018) モデル X2face(2018) 0.82
NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) 0.96
Ours SSIM↑ FID↓ CSIM↑ FaceForensics++ (2019) 0.689 0.229 0.755 0.813 0.823 我々の SSIM! FID. CSIM. FaceForensics++ (2019) 0.689 0.229 0.755 0.813 0.823 0.54
0.719 0.635 0.744 0.723 0.730 0.719 0.635 0.744 0.723 0.730 0.44
31.098 38.844 44.390 36.124 30.394 31.098 38.844 44.390 36.124 30.394 0.44
X2face (2018) X2face (2018) 0.84
NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) 0.96
Ours Celeb-DF (2019) 我々の Celeb-DF (2019) 0.72
0.676 0.511 0.650 0.687 0.753 0.676 0.511 0.650 0.687 0.753 0.44
0.473 0.586 0.508 0.613 0.667 0.473 0.586 0.508 0.613 0.667 0.44
14.186 17.973 15.762 13.620 12.597 14.186 17.973 15.762 13.620 12.597 0.44
PRMSE↓ AUCON↑ PRMSEU AUCONU 0.40
3.26 3.76 3.13 3.79 3.26 3.26 3.76 3.13 3.79 3.26 0.44
4.10 6.09 3.98 3.15 3.12 4.10 6.09 3.98 3.15 3.12 0.44
0.813 0.791 0.825 0.886 0.831 0.813 0.791 0.825 0.886 0.831 0.44
0.679 0.747 0.714 0.839 0.751 0.679 0.747 0.714 0.839 0.751 0.44
X2face (2018) X2face (2018) 0.84
NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) 0.96
Ours 0.604 0.381 0.620 0.614 0.658 我々の 0.604 0.381 0.620 0.614 0.658 0.52
Celeb-DF (2019) Celeb-DF (2019) 0.84
X2face(2018) X2face(2018) 0.84
NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) NeuralHead-FF (2019) MarioNETte (2019) FirstOrder (2019b) 0.96
Ours 0.400 0.352 0.460 0.432 0.463 我々の 0.400 0.352 0.460 0.432 0.463 0.52
9.80 6.82 7.68 6.62 7.04 9.80 6.82 7.68 6.62 7.04 0.44
6.52 8.30 5.16 6.10 5.10 6.52 8.30 5.16 6.10 5.10 0.44
0.697 0.730 0.710 0.734 0.706 0.697 0.730 0.710 0.734 0.706 0.44
0.400 0.480 0.662 0.500 0.660 0.400 0.480 0.662 0.500 0.660 0.44
Quantitative and qualitative comparison Table 1 lists the quantitative comparisons with existing oneshot reenactment methods when reenacting the same identity, and Table 2 reports the evaluation results when reenacting a different identity. 定量的かつ質的な比較表1は、同一のアイデンティティを再現する場合に既存のワンショット再現方法と定量的比較をリストアップし、表2は異なるアイデンティティを再現する場合の評価結果を報告する。 0.67
It is worth mentioning that the method that, following (Ha et al. 以下(Ha et al.)の方法に言及する価値があります。 0.70
2019), we re-implement (Zakharov et al. 2019年) 再実装 (zakharov et al.)。 0.70
2019) using only the feed-forward network in the one-shot setting. 2019) ワンショット設定でフィードフォワードネットワークのみを使用します。 0.80
Differ from other competitors, FirstOrder (2019b) require two driving image to perform the relative motion transfer, one image provide the initial driving pose-and-expression and another one to provides the target driving pose-and-expression. 他の競合他社とは異なり、FirstOrder(2019b)は相対的な移動を実行するために2つの駆動画像を必要とし、1つの画像は最初の駆動ポーズと表現を提供し、もう1つの画像はターゲット駆動ポーズと表現を提供する。 0.58
We use the source image to provide the initial driving pose-and-expression when reenacting the same identity to perform the relative motion transfer, and the absolute motion transfer is adopted when reenacting different identities as the initial driving image is lacked for all competitors. 原画像を用いて、同一のIDを再現して相対的なモーション転送を行う場合の、初期駆動のポーズ・アンド・エクスプレッションを提供し、初期駆動のイメージが欠如しているため、異なるIDを再現する場合の絶対移動が採用される。
訳抜け防止モード: ソースイメージを使用して、最初の駆動ポーズを提供します。 と - 表現する時 同じアイデンティティを再現して 相対的な動きを転送します 絶対運動移動は 初期の運転画像が ライバル全員に 欠けているので 異なるアイデンティティーを再現する
0.73
Notably, the results show that our method outperforms other methods in many metrics, demonstrating our method can synthesize highly realistic faces while effectively retaining the source appearance and faithfully reenacting the poseand-expression. 特に,本手法は,多くの指標において他の手法よりも優れており,実際の顔の表情を効果的に保ちつつ,ポーズ・アンド・エクスプレッションを忠実に再現できることを示す。 0.56
Fig. 5 illustrates typical qualitative examples, all of which are randomly selected from the testing set. フィギュア。 5は典型的な定性的な例を示し、テストセットからランダムに選択される。 0.60
We can see that X2face (2018) is unable to generate face regions that do not exist in the source images, so it may result in large artifacts. x2face (2018) はソースイメージに存在しない顔領域を生成することができないため、大きなアーティファクトを生成する可能性がある。 0.80
As the state of art, MarioNETte (2019) can effectively preserve the source shape, but there may still be some appearance artifacts in some regions. 芸術の現状として、MarioNETte(2019)はソース形状を効果的に保存できますが、一部の地域ではまだ外観のアーティファクトがある可能性があります。 0.68
Our method fixes this issue by introducing the appearance adaptive normalization and local region reenacting. 本手法では, 出現適応正規化と局所領域再活性化を導入した。
訳抜け防止モード: 私たちの方法はこの問題を解決します 出現適応正規化と局所領域再現の導入
0.73
We also qualitatively compare our method with recently proposed methods of Zhang et al. また,最近提案した Zhang et al の手法と定性的に比較した。 0.67
(2019) and FS- (2019)とFS- 0.94
SourceDrivingNeuralH ead-FFX2FaceFirstOrd erMarioNetTeOurs SourceDrivingNeuralH ead-FFX2FaceFirstOrd erMarioNetTeOurs 0.26
英語(論文から抽出)日本語訳スコア
Figure 6: Comparison of our method with FSGAN(2019), source andn driving images are cited from FSGAN(2019) 図6:本手法とFSGAN(2019)の比較、FSGAN(2019)からソースおよびn駆動画像を参照。 0.71
Figure 7: Comparison of our method with Zhang et al. 図7:Zhang et alとの比較。 0.54
(2019), source andn driving images are cited from Zhang et al.(2019). (2019)、Zhang et al.(2019)からソース・アン駆動画像が引用されている。 0.73
GAN(2019), demonstrated in Fig. GAN(2019)は、図で示しました。 0.70
6 and Fig. 7. 6およびFig。 7. 0.75
We can observe blurriness and color-inconsistency in the results of FSGAN(2019). FSGAN(2019) の結果から, ぼかしや色の不整合を観察できる。 0.75
Also the images synthesized by Zhang et al. また、Zhang et alによって合成された画像。 0.57
(2019) have distorted face shapes and artifacts in boundaries, because Zhang et al. (2019)は張らによって表面形状や境界の人工物が歪んだ。 0.79
(2019) utilize the face parsing map, which is an identity-specific feature, to guide the reenacting. (2019) 同一性に特有な特徴である顔解析マップを用いて再現を誘導する。 0.72
On the contrary, with the help of appearance adaptive normalization and local region reenacting, our method can achieve more detailed and natural-looking results. それとは対照的に,出現適応正規化と局所領域再現の助けを借りて,より詳細かつ自然な結果が得られる。 0.71
Ablation study Table 3: Quantitative ablation study for reenacting a different identity on the Faceforensics++ dataset (R¨ossler et al. アブレーション研究 表3:Faceforensics++データセット上で異なるアイデンティティを再アクティベートするための定量的アブレーション研究。 0.71
2019). Model 2019). モデル 0.82
- local net - AAN + SPADE -ローカルネット -AAN+SPADE 0.79
Ours CSIM↑ 0.615 0.558 0.658 我々の csim 0.615 0.558 0.658 0.52
PRMSE↓ AUCON↑ 0.698 7.293 11.030 0.660 0.706 7.04 プレンセシュ・オーコニ 0.698 7.293 11.030 0.660 0.706 7.04 0.40
To better evaluate the key components within our network, we perform the ablation study by evaluating the following variants of our method: • −LocalN et. ネットワーク内のキーコンポーネントをよりよく評価するために,本手法の変種である• −localn et を評価し,アブレーション研究を行う。 0.77
The local net is excluded from the full ローカルネットはフルから除外されます 0.75
Figure 8: Qualitative results of the ablation study. 図8:アブレーション研究の質的な結果。 0.73
Our full model leads to better results than other variants. 私たちの完全なモデルは、他の変種よりも優れた結果をもたらします。 0.51
model. • −AAN + SP ADE. モデル。 • -AAN + SP ADE。 0.82
To validate the effectiveness of appearance adaptive normalization, we use the spatiallyadaptive normalization to replace it, and all the other components are the same as our model. 外観適応正規化の有効性を検証するために、空間適応正規化を使用してそれを置き換え、他のすべてのコンポーネントは私たちのモデルと同じです。
訳抜け防止モード: 外観適応正規化の有効性を検証するために,空間適応正規化を用いて置き換える。 他のコンポーネントはすべて私たちのモデルと同じです
0.79
The qualitative results are illustrated in Fig. 定性的な結果はFigで示される。 0.63
8 and quantitative results are listed in Table 3. 8と定量結果は表3に示されています。 0.68
We can see that our full model presents the most realistic and natural-looking results. 私たちの完全なモデルは、最も現実的で自然な結果を示します。 0.70
The local net can help reduce the pose-and-expression error, as it explicitly provides anchors for local face regions to guide the reenacting. ローカルネットは、局所的な顔領域が再現をガイドするアンカーを明示的に提供するため、ポーズと表現のエラーを減らすのに役立つ。 0.63
The appearance adaptive normalization can effectively improve image quality and reduce artifacts by globally modulating the appearance features. 外観適応正規化は、外観特徴をグローバルに変調することにより、画質を効果的に改善し、アーティファクトを低減できる。 0.55
Compared to the spatially-adaptive normalization (2019), our appearance adaptive normalization can better preserve the source appearance and leads to more realistic results. 空間適応正規化(2019)と比較して、我々の外観適応正規化は元の外観をよりよく保存し、より現実的な結果をもたらす。 0.65
It validates our appearance adaptive normalization is more suitable for face reenactment. 顔の再現には適応正規化がより適していることを示す。 0.68
Conclusion and future work In the paper, we propose a novel method to deal with the challenging problem of one-shot face reenactment. 結論と今後の課題 本論文では, ワンショット顔再現の課題に対処するための新しい手法を提案する。 0.72
Our network deploys a novel mechanism called appearance adaptive normalization to effectively integrate the source appearance information into our face generator, so that the reenacted face image can better preserve the same appearance as the source image. 本ネットワークは,表情適応正規化と呼ばれる新しい機構を展開し,音源出現情報を顔生成装置に効果的に統合することにより,再現された顔画像が音源画像と同じ外観を保存できるようにする。 0.68
Besides, we design a local net to reenact the local facial components first, which can in turn guide the global synthesis of face appearance and pose-andexpression. さらに,まず局所的な顔成分を再現するための局所的なネットをデザインし,顔の出現とポーズ・アンド・表現のグローバル合成を導く。 0.68
Compared to previous methods, our network exhibits superior performance in different metrics. 従来の手法と比較すると,ネットワークは異なる指標で優れた性能を示す。 0.69
In the future, we plan to explore the temporal consistency in the network design to facilitate the face reenactment in videos. 将来的には,ネットワーク設計における時間的一貫性を探求し,ビデオにおける顔再現を容易にすることを計画している。
訳抜け防止モード: 今後の計画 ビデオにおける顔の再現を容易にするために,ネットワーク設計における時間的一貫性を探求する。
0.74
Acknowledgments We thank anonymous reviewers for their valuable comments. Acknowledgments 彼らの貴重なコメントを匿名のレビュアーに感謝します。 0.52
This work is supported by National Key R&D Program of China (2018YFB1004300), NSF China (No. この研究は、national key r&d program of china (2018yfb1004300)、nsf china (no。 0.62
61772462, No. 61772462, No。 0.81
U1736217) and the 100 Talents Program of Zhejiang University. U1736217)と江江大学100人のタレントプログラム。 0.76
SourceDrivingFSGANOu rsSourceDrivingZhang et al.OursSourceDriving - LocalNet - AAN+ SPADEOurs SourceDrivingFSGANOu rsSourceDrivingZhang et al.OursSourceDriving - LocalNet - AAN+ SPADEOurs 0.35
英語(論文から抽出)日本語訳スコア
References Amos, B.; Ludwiczuk, B.; and Satyanarayanan, M. 2016. 参考文献 Amos、B.; Ludwiczuk、B.;およびSatyanarayan、M.2016。 0.75
OpenFace: A general-purpose face recognition library with mobile applications. OpenFace: モバイルアプリケーションを備えた汎用顔認識ライブラリ。 0.73
Technical report, CMU-CS-16-118, CMU School of Computer Science. 技術報告 CMU-CS-16-118, CMU School of Computer Science。 0.75
Brock, A.; Donahue, J.; and Simonyan, K. 2018. Brock, A.; Donahue, J.; and Simonyan, K. 2018 0.82
Large Scale GAN Training for High Fidelity Natural Image Synthesis. 高忠実度自然画像合成のための大規模GAN訓練 0.79
de Vries, H.; Strub, F.; Mary, J.; Larochelle, H.; Pietquin, O.; and Courville, A. de Vries, H.; Strub, F.; Mary, J.; Larochelle, H.; Pietquin, O.; Courville, A. 0.81
2017. Modulating early visual processing by language. 2017. 言語による初期視覚処理の変調。 0.81
Deng, J.; Guo, J.; Xue, N.; and Zafeiriou, S. 2019. Deng, J.; Guo, J.; Xue, N.; and Zafeiriou, S. 2019 0.84
Arcface: Additive angular margin loss for deep face recognition. Arcface:ディープフェース認識のための付加的な角縁損失 0.78
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 4690–4699. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 4690–4699。 0.90
Friesen, E.; and Ekman, P. 1978. Friesen, E.; and Ekman, P. 1978 0.83
Facial action coding system: a technique for the measurement of facial movement. 顔行動符号化システム:顔の動きを測定するための技術。 0.85
Palo Alto 3. Geng, J.; Shao, T.; Zheng, Y.; Weng, Y.; and Zhou, K. 2018. パロアルト3世。 Geng, J.; Shao, T.; Zheng, Y.; Weng, Y.; Zhou, K. 2018 0.67
Warp-guided GANs for single-photo facial animation. シングルフォトフェイシャルアニメーション用のウォープガイドGAN。 0.51
In SIGGRAPH Asia 2018 Technical Papers, 231. SIGGRAPH Asia 2018 Technical Papers, 231。 0.69
ACM. Ha, S.; Kersner, M.; Kim, B.; Seo, S.; and Kim, D. 2019. ACM。 Ha, S.; Kersner, M.; Kim, B.; Seo, S.; Kim, D. 2019。 0.82
MarioNETte: Few-shot Face Reenactment Preserving Identity of Unseen Targets. MarioNETte: 未確認ターゲットのアイデンティティを保持する顔の再現。 0.69
Heusel, M.; Ramsauer, H.; Unterthiner, T.; Nessler, B.; and Hochreiter, S. 2017. Heusel, M.; Ramsauer, H.; Unterthiner, T.; Nessler, B.; Hochreiter, S. 2017。 0.83
Gans trained by a two time-scale update In Advances in rule converge to a local nash equilibrium. 規則の進行における2つの時間スケール更新によって訓練されたgansは局所ナッシュ平衡に収束する。 0.56
Neural Information Processing Systems, 6626–6637. ニューラル情報処理システム、6626–6637。 0.76
Huang, X.; and Belongie, S. 2017. Huang、X.;およびBelongie、S.2017。 0.83
Arbitrary Style Transfer in Real-Time with Adaptive Instance Normalization. アダプティブインスタンス正規化によるリアルタイムの任意スタイル転送 0.74
2017 IEEE International Conference on Computer Vision (ICCV) doi:10.1109/iccv.201 7.167. 2017 IEEE International Conference on Computer Vision (ICCV) doi:10.1109/iccv.201 7.167 0.69
URL http://dx.doi.org/10 .1109/ iccv.2017.167. URL http://dx.doi.org/10 .1109/ iccv.2017.167 0.39
Isola, P.; Zhu, J.-Y. Isola, P.; Zhu, J.-Y。 0.93
; Zhou, T.; and Efros, A. ; Zhou, T., and Efros, A. 0.85
A. 2017. Imageto-Image Translation with Conditional Adversarial Networks. A。 2017. 条件付き逆数ネットワークを用いた画像間変換 0.70
2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) doi:10.1109/cvpr.201 7.632. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) doi:10.1109/cvpr.201 7.632 0.73
URL http://dx.doi.org/10 .1109/cvpr.2017.632. URL http://dx.doi.org/10 .1109/cvpr.2017.632 0.33
Johnson, J.; Alahi, A.; and Fei-Fei, L. 2016. Johnson, J.; Alahi, A.; and Fei-Fei, L. 2016 0.94
Perceptual losses for real-time style transfer and super-resolution. リアルタイム型転送と超解像における知覚的損失 0.56
In European conference on computer vision, 694–711. コンピュータビジョンに関する欧州会議で、694–711。 0.76
Springer. Kim, H.; Carrido, P.; Tewari, A.; Xu, W.; Thies, J.; Niessner, M.; P´erez, P.; Richardt, C.; Zollh¨ofer, M.; and Theobalt, C. 2018. Springer Kim, H.; Carrido, P.; Tewari, A.; Xu, W.; Thies, J.; Niessner, M.; P ́erez, P.; Richardt, C.; Zollh sofer, M.; Theobalt, C. 2018。 0.70
Deep video portraits. ディープビデオのポートレート。 0.67
ACM Transactions on Graphics (TOG) 37(4): 163. ACM Transactions on Graphics (TOG) 37(4): 163。 0.78
Kingma, D. P.; and Ba, J. Kingma, D. P., and Ba, J. 0.92
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980 . arXiv preprint arXiv:1412.6980 0.69
Ledig, C.; Theis, L.; Husz´ar, F.; Caballero, J.; Cunningham, A.; Acosta, A.; Aitken, A.; Tejani, A.; Totz, J.; Wang, Z.; et al. Ledig, C.; Theis, L.; Husz ́ar, F.; Caballero, J.; Cunningham, A.; Acosta, A.; Aitken, A.; Tejani, A.; Totz, J.; Wang, Z.; et al. 0.89
2017. Photo-realistic single image super-resolution using a generative adversarial network. 2017. 生成逆数ネットワークを用いたフォトリアリスティック単一画像超解像 0.75
In Proceedings of the IEEE conference on computer vision and pattern recognition, 4681–4690. Proceedings of the IEEE conference on computer vision and pattern recognition, 4681–4690。 0.83
Li, Y.; Yang, X.; Sun, P.; Qi, H.; and Lyu, S. 2019. Li, Y.; Yang, X.; Sun, P.; Qi, H.; そしてLyu, S. 2019。 0.87
Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics. Celeb-DF: DeepFake Forensics用の大規模チェアリングデータセット。 0.82
Miyato, T.; Kataoka, T.; Koyama, M.; and Yoshida, Y. 宮戸(T.)、片岡(T.)、小山(M.)、吉田(Y.)。 0.50
2018. Spectral normalization for generative adversarial networks. 2018. 生成逆ネットワークのスペクトル正規化 0.76
arXiv preprint arXiv:1802.05957 . arXiv preprint arXiv:1802.05957 0.69
Nirkin, Y.; Keller, Y.; and Hassner, T. 2019. Nirkin, Y.; Keller, Y.; そしてHassner, T. 2019。 0.85
Fsgan: Subject In Proceedings agnostic face swapping and reenactment. Fsgan: テーマ In Proceedings agnostic face swapping and reenactment。 0.71
of the IEEE International Conference on Computer Vision, 7184–7193. IEEE International Conference on Computer Vision, 7184-7193に参加。 0.87
Park, T.; Liu, M.-Y. Park, T.; Liu, M.-Y。 0.93
; Wang, T.-C.; and Zhu, J.-Y. ; Wang, T.-C., Zhu, J.-Y 0.93
2019. Semantic Image Synthesis with Spatially-Adaptive Normalization. 2019. 空間適応正規化による意味画像合成 0.80
Pumarola, A.; Agudo, A.; Martinez, A. M.; Sanfeliu, A.; and Moreno-Noguer, F. 2018. Pumarola, A.; Agudo, A.; Martinez, A. M.; Sanfeliu, A.; Moreno-Noguer, F. 2018 0.90
Ganimation: Anatomicallyaware facial animation from a single image. ganimation: 解剖学的に認識された顔のアニメーション。 0.68
In Proceedings of the European Conference on Computer Vision (ECCV), 818–833. 第818-833回欧州コンピュータビジョン会議(ECCV)に参加。 0.74
Ronneberger, O.; Fischer, P.; and Brox, T. 2015. Ronneberger, O.; Fischer, P.; and Brox, T. 2015 0.83
U-Net: Convolutional Networks for Biomedical Image Segmentation. U-Net: バイオメディカルイメージセグメンテーションのための畳み込みネットワーク。 0.80
ArXiv abs/1505.04597. ArXiv abs/1505.04597 0.62
R¨ossler, A.; Cozzolino, D.; Verdoliva, L.; Riess, C.; Thies, J.; and Nießner, M. 2019. レオスラー, A.; Cozzolino, D.; Verdoliva, L.; Riess, C.; Thies, J.; Nießner, M. 2019。 0.83
FaceForensics++: Learning to Detect Manipulated Facial Images. FaceForensics++: 顔画像を操作する学習。 0.80
In International Conference on Computer Vision (ICCV). 国際コンピュータビジョン会議(ICCV)に参加。 0.73
Shi, W.; Caballero, J.; Husz´ar, F.; Totz, J.; Aitken, A. P.; Bishop, R.; Rueckert, D.; and Wang, Z. Shi, W.; Caballero, J.; Husz ́ar, F.; Totz, J.; Aitken, A.P.; Bishop, R.; Rueckert, D.; Wang, Z。 0.89
2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. 2016. 効率的なサブピクセル畳み込みニューラルネットワークを用いたリアルタイム単一画像とビデオ超解像 0.76
In Proceedings of the IEEE conference on computer vision and pattern recognition, 1874–1883. Proceedings of the IEEE conference on computer vision and pattern recognition, 1874–1883。 0.85
Siarohin, A.; Lathuili`ere, S.; Tulyakov, S.; Ricci, E.; and Sebe, N. 2019a. Siarohin, A.; Lathuili`ere, S.; Tulyakov, S.; Ricci, E.; Sebe, N. 2019a 0.83
Animating Arbitrary Objects via Deep Motion Transfer. Deep Motion Transfer による任意オブジェクトのアニメーション。 0.82
In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Conference on Computer Vision and Pattern Recognition (CVPR)において。 0.83
Siarohin, A.; Lathuili`ere, S.; Tulyakov, S.; Ricci, E.; and Sebe, N. 2019b. Siarohin, A.; Lathuili`ere, S.; Tulyakov, S.; Ricci, E.; Sebe, N. 2019b 0.84
First Order Motion Model for Image Animation. 画像アニメーションのための一階運動モデル。 0.76
In Conference on Neural Information Processing Systems (NeurIPS). ニューラル情報処理システム(NeurIPS)に関する会議。 0.67
Simonyan, K.; and Zisserman, A. Simonyan、K.;およびZisserman、A。 0.77
2014. Very deep convolutional networks for large-scale image recognition. 2014. 大規模画像認識のための深層畳み込みネットワーク 0.81
arXiv preprint arXiv:1409.1556 . arXiv preprint arXiv:1409.1556 0.69
Thies, J.; Zollhofer, M.; Stamminger, M.; Theobalt, C.; and Nießner, M. 2016. Thies, J.; Zollhofer, M.; Stamminger, M.; Theobalt, C.; Nießner, M. 2016 0.79
Face2face: Real-time face capture and reenactment of rgb videos. face2face: rgbビデオのリアルタイムキャプチャと再現。 0.79
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2387– 2395. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2387–2395。 0.84
Wang, T.-C.; Liu, M.-Y. Wang, T.-C.; Liu, M.-Y 0.86
; Zhu, J.-Y. Zhu, J.-Y。 0.93
; Tao, A.; Kautz, J.; and Catanzaro, B. ;Tao、A.;Kautz、J.;およびCatanzaro、B。 0.75
2018. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs. 2018. 条件付きGANを用いた高分解能画像合成とセマンティックマニピュレーション 0.77
2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition doi:10.1109/cvpr.201 8.00917. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition doi:10.1109/cvpr.201 8.00917 0.61
URL http: //dx.doi.org/10.1109 /cvpr.2018.00917. URL http: //dx.doi.org/10.1109 /cvpr.2018.00917 0.33
Wang, Z.; Bovik, A. C.; Sheikh, H. R.; Simoncelli, E. P.; et al. Wang, Z.; Bovik, A. C.; Sheikh, H. R.; Simoncelli, E. P.; et al 0.92
2004. Image quality assessment: from error visibility to 2004. 画像品質評価:エラーの可視性から 0.85
英語(論文から抽出)日本語訳スコア
structural similarity. IEEE transactions on image processing 13(4): 600–612. 構造的類似性 画像処理に関するIEEEトランザクション13(4):600–612。 0.80
Wiles, O.; Koepke, A. S.; and Zisserman, A. Wiles, O., Koepke, A. S., Zisserman, A。 0.77
2018. X2Face: A network for controlling face generation by using images, audio, and pose codes. 2018. X2Face:画像、音声、ポーズコードを使用して顔生成を制御するネットワーク。 0.85
Wu, W.; Zhang, Y.; Li, C.; Qian, C.; and Change Loy, C. 2018. Wu, W.; Zhang, Y.; Li, C.; Qian, C.; Change Loy, C. 2018 0.79
Reenactgan: Learning to reenact faces via boundIn Proceedings of the European Conference ary transfer. Reenactgan:BandIn Proceedings of the European Conference ary Transferを通じて顔の再現を学ぶ。 0.85
on Computer Vision (ECCV), 603–619. コンピュータビジョン(ECCV)、603-619。 0.82
Yang, J.; Liu, Q.; and Zhang, K. 2017. Yang, J.; Liu, Q.; Zhang, K. 2017 0.75
Stacked hourglass network for robust facial landmark localisation. 顔のランドマークのロケライゼーションのためのスタック化された時間ガラスネットワーク。 0.45
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 79–87. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 79-87。 0.87
Zakharov, E.; Shysheya, A.; Burkov, E.; and Lempitsky, V. 2019. Zakharov、E.;Shysheya、A.;Burkov、E.;およびLempitsky、V. 2019。 0.80
Few-Shot Adversarial Learning of Realistic Neural Talking Head Models. 実効性ニューラルトーキングヘッドモデルのFew-Shot Adversarial Learning 0.68
Zhang, H.; Goodfellow, I.; Metaxas, D.; and Odena, A. Zhang, H., Goodfellow, I., Metaxas, D., Odena, A。 0.74
2018. Self-Attention Generative Adversarial Networks. 2018. セルフアテンション生成型敵ネットワーク。 0.71
Zhang, Y.; Zhang, S.; He, Y.; Li, C.; Loy, C. C.; and Liu, Z. Zhang, Y.; Zhang, S.; He, Y.; Li, C.; Loy, C. C.; Liu, Z。 0.82
2019. One-shot Face Reenactment. 2019. ワンショット顔再現。 0.71
Zhu, J.-Y. Zhu, J.-Y。 0.81
; Park, T.; Isola, P.; and Efros, A. 公園、T.;Isola、P.;およびEfros、A。 0.62
A. 2017. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkss. A。 2017. 周期整合対向ネットワークを用いた不対向画像変換 0.73
In Computer Vision (ICCV), 2017 IEEE International Conference on. In Computer Vision (ICCV), 2017 IEEE International Conference on 0.70
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。