# (参考訳) 顔認識のベンチマークのための自動生成合成画像データセットの利用について [全文訳有]

On the use of automatically generated synthetic image datasets for benchmarking face recognition ( http://arxiv.org/abs/2106.04215v1 )

ライセンス: CC BY 4.0
Laurent Colbois, Tiago de Freitas Pereira and S\'ebastien Marcel(参考訳) 大規模な顔データセットの可用性は、顔認識の進歩において鍵となっている。 しかし、ライセンス問題や著作権侵害のため、一部のデータセットはもはや利用できない(例)。 MS-Celeb-1M)。 現実的な顔画像を合成するGAN(Generative Adversarial Networks)の最近の進歩は、顔認識(FR)システムのトレーニングとベンチマークを行うために、合成データセットによって実際のデータセットを置き換える経路を提供する。 本稿では,合成データセットを用いたFRシステムのベンチマークについて述べる。 まず,複数の制御因子を持つStyleGAN2モデルの潜在構造を利用して,人間の介入を必要とせずに合成データセットを生成する手法を提案する。 そして、(i)生成した合成idは、10k以上のidを持つ合成データセット上で検証されるganのトレーニングデータセットからのデータセットではないことを確認し、(ii)合成データセットのベンチマーク結果は良い置換であり、しばしば実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。

The availability of large-scale face datasets has been key in the progress of face recognition. However, due to licensing issues or copyright infringement, some datasets are not available anymore (e.g. MS-Celeb-1M). Recent advances in Generative Adversarial Networks (GANs), to synthesize realistic face images, provide a pathway to replace real datasets by synthetic datasets, both to train and benchmark face recognition (FR) systems. The work presented in this paper provides a study on benchmarking FR systems using a synthetic dataset. First, we introduce the proposed methodology to generate a synthetic dataset, without the need for human intervention, by exploiting the latent structure of a StyleGAN2 model with multiple controlled factors of variation. Then, we confirm that (i) the generated synthetic identities are not data subjects from the GAN's training dataset, which is verified on a synthetic dataset with 10K+ identities; (ii) benchmarking results on the synthetic dataset are a good substitution, often providing error rates and system ranking similar to the benchmarking on the real dataset.
公開日: Tue, 8 Jun 2021 09:54:02 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
On the use of automatically generated synthetic image datasets for 自動生成合成画像データセットの利用について 0.80
benchmarking face recognition 顔認識のベンチマーク 0.63
Laurent Colbois Laurent Schön 0.61
Tiago de Freitas Pereira Tiago de Freitas Pereira 0.85
Idiap Research Institute, Martigny, Switzerland スイス, マルティニーのidiap研究所 0.74
{laurent.colbois, tiago.pereira, sebastien.marcel}@idiap.ch ローレンツ・コルボワ, ティアゴ・ペレイラ, sebastien.marcel}@idiap.ch 0.54
S´ebastien Marcel S ́ebastien Marcel 0.71
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] V C . 8 ] 略称はC。 0.73
s c [ 1 v 5 1 2 4 0 sc [ 1 v 5 1 2 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract The availability of large-scale face datasets has been key in the progress of face recognition. 概要 大規模な顔データセットの可用性は、顔認識の進歩において鍵となっている。 0.53
However, due to licensing issues or copyright infringement, some datasets are not available anymore (e g MS-Celeb-1M). しかし、ライセンス問題や著作権侵害のため、一部のデータセットは利用できない(例えばMS-Celeb-1M)。 0.71
Recent advances in Generative Adversarial Networks (GANs), to synthesize realistic face images, provide a pathway to replace real datasets by synthetic datasets, both to train and benchmark face recognition (FR) systems. 現実的な顔画像を合成するGAN(Generative Adversarial Networks)の最近の進歩は、顔認識(FR)システムのトレーニングとベンチマークを行うために、合成データセットによって実際のデータセットを置き換える経路を提供する。 0.72
The work presented in this paper provides a study on benchmarking FR systems using a synthetic dataset. 本稿では,合成データセットを用いたFRシステムのベンチマークについて述べる。 0.67
First, we introduce the proposed methodology to generate a synthetic dataset, without the need for human intervention, by exploiting the latent structure of a StyleGAN2 model with multiple controlled factors of variation. まず,複数の制御因子を持つStyleGAN2モデルの潜在構造を利用して,人間の介入を必要とせずに合成データセットを生成する手法を提案する。 0.76
Then, we confirm that (i) the generated synthetic identities are not data subjects from the GAN’s training dataset, which is verified on a synthetic dataset with 10K+ identities; (ii) benchmarking results on the synthetic dataset are a good substitution, often providing error rates and system ranking similar to the benchmarking on the real dataset. そして、(i)生成した合成idは、10k以上のidを持つ合成データセット上で検証されるganのトレーニングデータセットからのデータセットではないことを確認し、(ii)合成データセットのベンチマーク結果が良い置換であり、しばしば実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。 0.70
1. Introduction Face datasets used to train and benchmark face recognition (FR) systems have reached the scale of hundreds of thousand identities. 1. はじめに 顔認識(FR)システムのトレーニングとベンチマークに使用される顔データセットは、数十万のIDに到達した。
訳抜け防止モード: 1. はじめに 顔認識システム(FR)の訓練とベンチマークに使用される顔データセット 数十万の身元に到達しました
These large-scale datasets have been responsible for pushing the state-of-the-art face recognition systems in terms of recognition rates. これらの大規模データセットは、最先端の顔認識システムを認識率で推進する役割を担っている。 0.68
Many of them claim to be based on images of “celebrities” scraped from the web. 多くは、ウェブから取り除かれた”セレブ”のイメージに基づいていると主張している。 0.66
However, this is partially inaccurate as these datasets are not only composed of public figures from media, but may include as well ordinary people [25] uninformed about the use of their data. しかし、これらのデータセットはメディアの公開人物ばかりでなく、一般の人々 [25] がデータの使用について無知であることから、これは部分的に不正確である。 0.77
As a consequence, well established datasets had to be discontinued [16]. その結果、確立されたデータセットは廃止されなければなりません [16]。 0.68
In parallel, legislation is trying to address these issues. 同時に、法律はこれらの問題に対処しようとしている。 0.55
For instance, in Europe the GDPR [10] has established that biometric data is personal data and requires that informed consent is obtained from data subjects. 例えば、ヨーロッパでは、GDPR[10]はバイオメトリックデータが個人データであることを確立し、データ主体からインフォームドコンセントを得る必要がある。 0.78
Hence, it becomes harder to collect, curate and distribute face recognition datasets that comply with all regulations such as anonymity or informed consent. したがって、匿名性やインフォームド・コンセンサスなどのすべての規則に従う顔認識データセットの収集、キュレート、配布が困難になる。 0.69
At the Figure 1: Example of the full set of variations generated for a single synthetic identity. 当座 図1: 単一の合成idのために生成されるバリエーションの完全なセットの例。 0.58
All displayed images are synthetic. 表示された画像はすべて合成です。 0.61
The first image (highlighted in red) is the main reference (neutral expression, frontal view, frontal illumination). 最初の画像(赤でハイライトされる)は主参照(中性表現、正面視、正面照準)である。 0.79
Then, using a latent editing approach we automatically generate expression variations (first row), pose variations (second row) and illumination variations (third row). 次に、潜在編集アプローチを用いて、式変動(第1行)、ポーズ変動(第2列)、照明変動(第3列)を自動的に生成する。 0.67
same time, the past few years have seen major improvements in synthetic face image generation, in particular using Generative Adversarial Networks (GANs). 同時に、ここ数年で合成顔画像の生成が大幅に改善され、特にGAN(Generative Adversarial Networks)を用いている。 0.78
The most recent GANs enable easy sampling of high-resolution and very realistic face images. 最新のganは、高解像度でとてもリアルな顔画像を簡単にサンプリングできる。 0.59
Moreover, their latent space present some structure that can be exploited to edit face attributes in a disentangled manner, and thus to generate many different samples of the same synthetic identity. さらに、それらの潜在空間は、顔属性を乱れなく編集するために利用されるいくつかの構造を示し、同じ合成アイデンティティの多くの異なるサンプルを生成する。 0.74
The aim of this work is to explore if those synthetic images can be substituted to real data when benchmarking FR systems. この研究の目的は、これらの合成画像がfrシステムのベンチマーク時に実際のデータに置き換えられるかどうかを調べることである。 0.60
In a past study on this topic [29], three required characteristic of such an evaluation dataset have been identified: (i) Privacy: each biometric data in the synthetic dataset should not represent any real person, (ii) Precision: the evaluation results derived from a synthetic biometric dataset should be equal to the one from the real dataset and (iii) Universality: the precision requirement should be satisfied for all evaluated authentication algorithms. プライバシ: 合成データセット内の各バイオメトリックデータは、実人を表すべきではない、(ii) 精度: 合成バイオメトリックデータセットから得られる評価結果は、実際のデータセットから得られるものと同等でなければならない、(iii) 普遍性: 精度要件は、すべての評価された認証アルゴリズムで満たされるべきである。
訳抜け防止モード: この話題 [29 ] に関する過去の研究で、そのような評価データセットの3つの要求特性が同定された。 合成データセットの各生体データは 実際の人を表すべきではない (ii)精度: 合成バイオメトリックデータセットから得られる評価結果は、実際のデータセットから得られるものと同等であるべきである と (iii) 普遍性 精度の要求は 全ての評価された認証アルゴリズムで満たされるべきです
In the present work, we will mainly assess whether the precision and privacy requirements are satisfied with our synthetic dataset. 本研究は,我々の合成データセットで精度とプライバシー要件が満たされているかどうかを主に評価する。 0.78
The universality requirement is much more difficult to evaluate. 普遍性要件は評価するのがずっと難しい。 0.69
We cover it partially in this work by considering 私たちはこの作品で部分的にそれをカバーします 0.65
several systems, but it will be more extensively addressed in future work. いくつかのシステムがありますが 今後の作業では より広範囲に対処されます 0.59
This paper first describes our dataset generation method, which relies on exploiting semantic editing directions in the latent space of a face-based StyleGAN2 [19]. 本稿ではまず,顔に基づくStyleGAN2[19]の潜在空間における意味編集の方向を利用するデータセット生成手法について述べる。 0.81
Then we will check whether the synthetic identities are actually new or if they are similar to real identities from the GAN’s training dataset. そして、合成されたアイデンティティが実際に新しいのか、それとも、GANのトレーニングデータセットの実際のアイデンティティと似ているのかを確認する。
訳抜け防止モード: では、確認します。 合成されたアイデンティティは あるいは、GANのトレーニングデータセットの実際のIDに似ている場合。
We will also compare the performance of several FR systems on precise protocols using real and synthetic datasets independently. また、複数のfrシステムの性能を、実データと合成データセットを独立に使用する正確なプロトコルで比較する。 0.65
Finally, we will inspect some of the synthetic samples causing recognition errors to identify possible shortcomings of our method. 最後に,本手法の欠点を識別するために,認識エラーの原因となる合成サンプルを検査する。 0.77
Overall, our main contributions are the following: 全体として、私たちの主な貢献は以下のとおりです。 0.54
• We introduce a new method for finding semantic editing directions in the latent space of StyleGAN2, based on the projection in this space of a real dataset with labeled covariates. • ラベル付き共変量を持つ実データセットのこの空間における投影に基づくstylegan2の潜在空間における意味的編集方向を求める新しい方法を提案する。 0.83
This method enables fully automatic editing, unlike current semantic editing methods (cf. 現在の意味編集方法(cf)とは異なり、完全自動編集が可能となる。 0.66
fig. 2) • We create a synthetic dataset imitating the Multi-PIE dataset [13], called Syn-Multi-PIE, to investigate if it can be substituted to a real dataset when evaluating the robustness of FR systems to illumination, expression and pose variations. フィグ 2) • マルチパイデータセット [13] を模倣した合成データセットである syn-multi-pie を作成し、frシステムの照明、表現、ポーズのバリエーションに対する堅牢性を評価する際に、それが実際のデータセットに置き換えられるかどうかを調べる。
訳抜け防止モード: フィグ 2) • Multi - PIE データセット [13 ] を模倣した合成データセットを作成する。 Syn - Multi - PIE と呼ばれ、実際のデータセットに置換できるかどうかを調べる FRシステムの堅牢性を評価する。
We hypothesize that this assessment can give an insight about the adequacy of synthetic datasets to benchmark FR systems. この評価は、ベンチマークfrシステムに対する合成データセットの妥当性についての洞察を与えることができると仮定する。 0.61
2. Related work 2.1. 2. 関連作品2.1。 0.75
Synthetic face generation Since the early introduction of generative adversarial networks (GANs) in [12], their generative ability has often been showcased on the task of face generation. 合成顔生成 12]にGAN(Generative Adversarial Network)が早期に導入されて以来、その生成能力は顔生成のタスクでしばしば紹介されてきた。 0.73
The current state-of-the-art model is the StyleGAN2 architecture trained on the FFHQ dataset [19], which provides the most perceptually compelling face images, while also performing best regarding the Fr´echet Inception Distance (FID), the most common metric used to quantify realism of the generation. 現在の最先端のモデルはffhqデータセット[19]でトレーニングされたstylegan2アーキテクチャで、最も知覚的に説得力のある顔画像を提供すると同時に、世代の実在論を定量化する最も一般的な指標であるfr 'echet inception distance (fid)についても最善を尽くしている。 0.66
However, the StyleGAN2 model is unconditioned : while it allows to sample face images from random input latent vectors, it does not provide a priori control on the semantic content of the result (e g pose, expression or race of the person). しかし、StyleGAN2モデルは無条件であり、ランダムに入力された潜伏ベクトルから顔画像のサンプリングを可能にするが、結果(例えば、人のポーズ、表現、人種)のセマンティック内容の優先順位制御は提供しない。 0.61
It is notably non trivial to generate several variations of the same identity. 同じアイデンティティのいくつかのバリエーションを生成することは特に自明ではない。 0.62
Several approaches work towards overcoming this limitation. この制限を克服するためのいくつかのアプローチがある。 0.50
First, one can use image-to-image translation networks to generate variations through a posteriori editing, the same way one would edit a real image. まず、画像から画像への翻訳ネットワークを使用して、実際の画像を編集するのと同じように、後方編集を通じてバリエーションを生成することができる。
訳抜け防止モード: まず、画像-to-画像翻訳ネットワークを使用できる 実際の画像を編集するのと同じように、後方編集を通じてバリエーションを生成する。
We can mention in particular [17] and [21], which propose methods for editing a broad set of facial attributes, but there exists many references proposing an editing method targeting a specific attribute such as age [3] or expression [8]. 顔属性の広い集合を編集する方法を提案する [17] と [21] について述べることができるが、年齢[3] や式 [8] のような特定の属性を対象とする編集方法を提案する多くの文献が存在する。 0.83
Figure 2: Usual methods to find editing directions do not provide insight on the scale of the editing. 図2:編集方向を見つけるための手段は、編集の規模についての洞察を与えない。 0.76
Human intervention is required at generation time to explore how much one can move along a direction while preserving identity and realism of the image, which is unpractical for automatic dataset generation. 自動データセット生成には実用的でない画像のアイデンティティとリアリズムを保ちながら、その方向をどこまで移動できるかを探索するには、生成時に人間の介入が必要となる。 0.64
(Illustration from [18]) A second approach is instead to retrain the generative model to make it conditional. ([18]の図) 第二のアプローチは、生成モデルを再トレーニングして条件付きにすることです。 0.69
This is generally done by ensuring the latent input to the generator can be split between a component specifying identity and a component specifying all other factors of variations ([9], [31], [4]), with sometimes a even finer control on the factors of variation to manipulate several semantic attributes in a disentangled manner ([23], [11]). これは一般的に、ジェネレータへの潜伏入力を、アイデンティティを指定したコンポーネントと、他のバリエーションの要素をすべて指定したコンポーネント([9], [31], [4])とで分割できることを保証する。
訳抜け防止モード: これは一般的に、ジェネレータへの潜伏入力をアイデンティティを指定するコンポーネント間で分割できることを保証する。 変数の他のすべての要素を指定するコンポーネント([9]) [31 ], [4 ] ) は、いくつかのセマンティック属性を歪んだ方法で操作するために、時として変化の要因をより細かく制御する([23 ])。 [ 11 ] ) .
Finally, it is also possible to exploit StyleGAN2’s properties. 最後に、StyleGAN2のプロパティを利用することもできる。 0.68
In [26], the authors propose to decouple disentanglement from synthesis by learning a mapping into StyleGAN2’s latent space, from which they are able to generate face images by respectively mixing the identity and attributes of two input synthetic images, while keeping the synthesis quality. 26]では,合成品質を維持しつつ,入力された2つの合成画像のアイデンティティと属性を混合して顔画像を生成することのできるstylegan2の潜在空間へのマッピングを学習することにより,合成から不連続を分離することを提案している。 0.78
the authors exploit the property of linear separation of semantic attributes in StyleGAN2’s latent space, and propose a general framework to find latent directions corresponding to editing only a particular semantic attribute, while keeping other attributes untouched. 著者らは,スタイルガン2の潜在空間における意味属性の線形分離の特性を活用し,他の属性に影響を与えないまま,特定の意味属性のみの編集に対応する潜在方向を求める汎用フレームワークを提案する。 0.71
In a sense, this makes the unconditional model actually conditional, by leveraging latent properties of the model that were learned in an unsupervised manner. ある意味では、無条件モデルは、教師なしの方法で学習されたモデルの潜在性を利用して、実際に条件付きである。 0.62
In [28], 2.2. in [28] 2.2. 0.65
Synthetic data in face recognition 顔認識における合成データ 0.78
Usage of synthetic data in face recognition usually occurs at the training step, as a form of data augmentation. 顔認識における合成データの使用は通常、データ拡張の形式でトレーニングステップで発生する。 0.81
A distinction can be made between depth augmentation (increasing the number of samples per subject) and width augmentation (increasing the number of subjects). 深さ増減(被験者1人あたりのサンプル数の増加)と幅増減(被験者数の増加)とを区別することができる。 0.80
Depth augmentation is typically done by mapping face images to a 3D morphable model (3DMM), enabling generation of pose, expression or illumination augmentations [6]. 深度拡大は通常、顔画像を3次元モーファブルモデル(3dmm)にマッピングすることで行われ、ポーズ、表情、照明増強の生成を可能にする [6]。 0.72
For width augmentation, it is also possible to use similar 3DMMs by randomizing their parameters [20]. 幅拡大のために、類似の3dmmをパラメータ [20] をランダムに使用することも可能である。 0.71
GAN based approaches can be exploited both for depth- and widthaugmentation, although with them identity preservation in depth-augmentation is a major challenge. GANに基づくアプローチは、深さと幅の増大の両方に活用できるが、深さの増大におけるアイデンティティの保存は大きな課題である。 0.58
We can mention [31], in which they train an identity-disentangle d GAN 身元不明のGANを訓練する[31]に言及できます。 0.44
and use it to augment a FR train dataset, and [22], where they design a 3D GAN conditioned on the parameters of a 3DMM to improve facial recognition on extreme poses. そして、frトレインデータセットと[22]を使って、3dmmのパラメーターを条件とした3d ganを設計し、極端なポーズでの顔認識を改善する。 0.65
In this work however, we focus on the use of synthetic data to benchmark face recognition systems. しかし,本研究では,合成データを用いた顔認識システムのベンチマークに注目する。 0.81
We are not aware of any recent work on this topic. 私たちはこの話題に関する最近の研究を知らない。 0.72
We can mention [29] that proposes a procedure to replace a real evaluation dataset with a synthetic one that produces similar biometric score distributions, but their work completely predates recent progresses in GAN-based face generation. 実際の評価データセットを、類似のバイオメトリックスコア分布を生成する合成データセットに置き換える手順を提案する[29]が、その作業はganベースの顔生成の最近の進歩を完全に先取りしている。 0.70
3. Synthetic generation methodology For the face generator, we use the StyleGAN2 model pretrained on FFHQ [19]. 3. 合成生成法 フェースジェネレータにはFFHQ[19]で事前訓練されたStyleGAN2モデルを使用します。 0.71
The network architecture decomposes in two parts. ネットワークアーキテクチャは2つの部分に分けられる。 0.72
First, a mapping network, which is a fully-connected network, takes Gaussian-sampled latent vectors as input and transforms them into a new latent of same dimension. まず、完全に接続されたネットワークであるマッピングネットワークは、ガウスサンプリングされた潜在ベクトルを入力として、それらを同じ次元の新しい潜在ベクトルに変換する。 0.65
Its input and output spaces are respectively called Z and W. Secondly, a synthesis network uses W-latents as input style vectors used to control the actual face generation process. 第二に、合成ネットワークは、実際の顔生成プロセスを制御するのに使用される入力スタイルベクトルとしてw-ラタントを使用する。 0.66
The output of this network is a face image. このネットワークの出力は顔画像である。 0.74
One can easily generate a database with many independent faces by randomly sampling latent vectors. 潜在ベクトルをランダムにサンプリングすることで、多くの独立した顔を持つデータベースを簡単に生成できる。 0.66
However, in order to use this synthetic data in face recognition applications, we need to generate several images where the identity is preserved but other attributes can vary. しかし、顔認識アプリケーションでこの合成データを使用するには、アイデンティティが保存されているが、他の属性が異なる画像を生成する必要がある。 0.69
In this work, we focus on three types of variability : illumination, pose and expression. 本研究では,照明,ポーズ,表情の3種類の可変性に着目した。 0.66
This is done by exploiting the remarkable property of linear separability of StyleGAN2’s W space. これはstylegan2のw空間の線形分離可能性の顕著な性質を利用して行われる。 0.71
This property emerges as a byproduct of the training of the GAN. この性質はGANの訓練の副産物として現れる。 0.61
Its impact is that when considering binary semantic attributes characterizing a face (young/old, female/male, neutral/smiling expression...), we can usually find a hyperplane in W that separates well the W-latents from each class. その影響は、顔(若い/古い、女性/男性、中性/スミリング表現...)を特徴付ける二項意味属性を考えるとき、w のハイパープレーンを見つけることができ、w-ラプタントをそれぞれのクラスからうまく分離することができる。
訳抜け防止モード: その影響は、顔(若い/古い)を特徴付けるバイナリセマンティック属性を考えるときである。 女性/男性、中性/笑顔の表現 ... ) 通常は W で超平面を見つけることができる 各クラスからW-ラテントを適切に分離する。
The normal to this hyperplane can then be used as a latent direction that specifically edits the considered covariate, thus providing finer control on the generation, despite the network being unconditional in the first place. この超平面の正規化は、ネットワークがそもそも無条件であるにもかかわらず、考慮された共変量(英語版)を特に編集する潜在方向として使用できる。 0.61
In this section, we describe our protocol for constructing a face recognition dataset by exploiting the linear separability of W. 3.1. 本稿では,w. 3.1の線形分離性を利用して,顔認識データセットを構築するプロトコルについて述べる。 0.75
Finding latent directions We take inspiration from [28], which proposes an approach to find semantic latent directions by labeling two distinct populations of W-latents vectors according to a binary target attribute (e.g left vs right profile), then fitting a linear SVM in W to separate those two populations. 潜行方向の発見 二元的対象属性(左と右のプロファイルなど)に従って2つの異なるw-ラテンツベクトルの集団をラベル付けし、それらの2つの集団を分離するためにwに線形svmを適合させることで、意味的潜在方向を求めるアプローチを提案している [28] から着想を得た。 0.69
In their case, the latent vectors are randomly sampled then labeled by running their associated image through an auxiliary pretrained attribute classification network. それらの場合、潜在ベクトルはランダムにサンプリングされ、補助的な事前学習属性分類網を介して関連画像を実行することでラベル付けされる。 0.57
Their method has the partial drawback of needing this auxiliary network, but more importantly it does not provide any notion of 彼らの方法は、この補助ネットワークを必要とする部分的な欠点を持っているが、もっと重要なことは、いかなる概念も提供していない。
訳抜け防止モード: 彼らの方法は、この補助的ネットワークを必要とする部分的な欠点がある。 しかしより重要なのは
scaling of the editing, i.e. 編集のスケーリング、すなわち、 0.55
how much along one latent direction one can move while preserving the identity and the realism of the image. 画像のアイデンティティとリアリズムを保ちながら、潜在方向に沿ってどれだけ移動することができるか。 0.65
To avoid those issues, we propose an alternative approach for obtaining the latent populations on which the SVMs are fitted. これらの問題を回避するために,SVM が適合する潜伏集団を得るための代替手法を提案する。 0.77
Instead of using random images, we project into the W space the content of a dataset of real images. ランダムな画像を使う代わりに、実際の画像のデータセットの内容をw空間に投影します。 0.74
By projection is meant the process of finding a Wlatent for which the associated image is perceptually close to a target real image. 投影とは、関連画像がターゲットの実画像に知覚的に近接しているラテントを見つける過程である。 0.66
This is done through optimization, generally using the perceptual loss as the objective to minimize. これは最適化によって行われ、一般的に最小化の目的として知覚損失を使用する。 0.61
Several variants of this approach exists ([1], [2]), mainly differing in the details of the optimization process. このアプローチのいくつかの変種([1], [2])は、主に最適化プロセスの詳細において異なる。 0.79
We use the implementation from [19]. 実装は[19]から使います。 0.60
This projection-based approach removes the need for an auxiliary classification network, and it gives access to a sense of scale : as a reasonable heuristic, we can keep track of the average distance to the hyperplane of each population of projected latents. このプロジェクションに基づくアプローチは、補助的な分類網の必要性を排除し、スケールの感覚へのアクセスを与える:合理的なヒューリスティックとして、投射された潜伏者の各集団の超平面への平均距離を追跡することができる。 0.81
We hypothesize that by using this distance as the editing scale for our synthetic identities, the resulting range of variation for each attribute will be similar to the one observed in the real dataset. この距離を我々の合成アイデンティティの編集尺度として用いることで、それぞれの属性の変動範囲は実際のデータセットで観測されたものに似ていると仮定する。 0.84
This enables us to generate all variations of each synthetic identity in a fully automatic manner, without requiring human intervention to decide the strength of each editing. これにより、編集の強度を決定するために人間の介入を必要とせず、完全自動で合成アイデンティティのすべてのバリエーションを生成できる。 0.73
We project the Multi-PIE dataset [13]. マルチPIEデータセット[13]を投影する。 0.70
For each identity, it contains face images with labeled covariates for pose, illumination and expression. 各アイデンティティには、ポーズ、照明、表現のためのラベル付き共変量を持つ顔画像が含まれる。 0.59
The available expressions are neutral, smile, disgust, scream, squint, surprise. 利用可能な表現は、中立、笑顔、嫌悪感、悲鳴、しゃがみ、驚きである。 0.65
After projection, we use the resulting latents to fit SVMs in W and find the following interesting latent directions: left-right pose edition, left-right illumination edition, and edition between any pair of expressions, along with the associated maximum editing scales. プロジェクション後、結果の潜伏子を用いて、W に SVM を適合させ、以下の興味深い潜伏方向を見つける: 左右ポーズエディション、左ライト照明エディション、任意の式間のエディション、および関連する最大編集スケール。 0.58
Figure 3 illustrate the full process. 図3は、全プロセスを示しています。 0.64
3.2. Syn-Multi-PIE Dataset 3.2. Syn-Multi-PIEデータセット 0.56
Finally, we generate a dataset of synthetic faces with controlled variations. 最後に,変化を制御した合成顔のデータセットを生成する。 0.69
New identities are obtained by sampling a latent in the Z space, and we create the main reference image by neutralizing the face in the W space, which means we edit it to ensure it has frontal view, frontal lightning and neutral expression. W空間の顔を中和することにより、Z空間の潜伏者をサンプリングし、主参照画像を作成することにより、前景、前景、中性表現の確保を図る。
訳抜け防止モード: Z空間の潜水剤をサンプリングして新しいアイデンティティを得る。 W空間の顔を中和することで、主参照画像を作成します。 つまり 編集して 正面の視界と 正面の雷と 中立の表現を 確保する
For pose and illumination neutralization, we simply project the W-latent onto the separation hyperplane. ポーズと照明中性化のために、W-格子を分離超平面に投影する。 0.64
For expression neutralization, a preliminary qualitative observation of the typical output of StyleGAN2 shows that randomly sampled latents mostly produce neutral or smiling expressions. 表現中性化のために、スタイルガン2の典型的な出力の予備定性的観察は、ランダムにサンプリングされた潜伏体がほとんど中性または笑顔の表現を生じることを示している。
訳抜け防止モード: 表現中性化のために、stylegan2の典型的な出力の予備的定性的観察が示す。 ランダムにサンプルされた潜伏動物は、主に中性または笑顔の表現を生じる。
We thus simply edit the latent along the neutral-to-smile direction to increase its neutral component. したがって、中立方向に沿って潜伏線を単純に編集して中立成分を増加させる。 0.53
To ensure enough variability between identities, we optionally apply a constraint on the interclass threshold (ICT), which specifies the minimum face embedding distance required between any identity pair. アイデンティティ間の十分なばらつきを確保するため、任意のIDペア間で必要となる最小の顔埋め込み距離を規定するクラス間しきい値(ICT)に制約を任意に適用する。 0.77
We only accept new candidate identities if they satisfy the constraint w.r.t every 新しい候補者の身元を 受け入れるのは 全て 制約を満たしていれば 0.64
of real data with labeled identities is used as reference to estimate the density of lookalikes in a standard population. 実データのラベル付きIDは 標準人口における 見た目の密度を推定するために使われます 0.81
For this experiment we use an Inception-ResNet v2 trained on Casia-WebFace [33] for face embedding extraction. この実験では、顔埋め込み抽出にcasia-webface [33] で訓練されたインセプション・resnet v2を使用する。 0.55
We measure face similarity as the negative cosine distance between face embeddings. 顔埋め込み間の負のコサイン距離として顔類似度を測定する。 0.67
We then compare three ROC curves. 次に、3つのROC曲線を比較する。 0.59
The Ref-ROC is built solely from identities from the reference dataset. Ref-ROCは参照データセットのIDからのみ構築される。 0.79
For the Sy-Se-ROC, we keep genuine pairs from Ref, and assuming that Sy identities should all be different from Se ones, we use Sy-Se comparisons as impostor pairs. Sy-Se-ROC に対して、真のペアを Ref から保持し、Sy のアイデンティティがすべて Se と異なると仮定すると、Sy-Se 比較をインポスタペアとして使用する。 0.54
If this ROC curve is shifted downwards with respect to the Ref-ROC, it means that SySe pairs contain more false matches than Ref impostors pairs, i.e. もしこの ROC 曲線が Ref-ROC に対して下向きにシフトすると、SySe 対は Ref インポスタ対よりも多くの偽の一致を含むことを意味する。 0.75
Sy-Se pairs contains more lookalikes than the Ref dataset, and thus Sy identities are not truly new. Sy-SeペアはRefデータセットよりも見た目が似ているため、Syアイデンティティは真に新しいものではない。 0.51
If however the Sy-Se ROC is superposed to the Ref-ROC, then we can say Sy identities are new. しかし、Sy-Se ROC が Ref-ROC に取って代わるならば、Sy アイデンティティは新しいものであると言える。 0.63
Doing the same experiment with Sy-Sy pairs, we can also assess the amount of lookalikes between Sy identities. Sy-Syペアで同じ実験を行うことで、Syアイデンティティ間のルックアライズ量を評価することもできる。 0.70
For establishing the Ref-ROC, we work with the IJB-C dataset under the 1:1 verification protocol [24]. Ref-ROCを確立するために、IJB-Cデータセットを1:1検証プロトコル[24]の下で作業します。 0.60
We generate two sets of 11k synthetic identities, once with no ICT constraint, and once with an ICT constraint of 0.1. 我々は、ICT制約のない1セット11kの合成IDとICT制約のない1セット0.1のICT制約を2セット生成する。 0.72
The value of 0.1 was empirically chosen as a good-trade off between identity variability, and number of rejected faces during the generation. 0.1の値は、アイデンティティの多様性と世代間における拒否された顔の数の間の良いトレードオフとして経験的に選択された。 0.54
Those 11k identities are compared with the 70k images of the seed dataset (FFHQ) to obtain the Sy-Se curves, and they are compared between themselves to get the Sy-Sy curves. これらの1kのアイデンティティをシードデータセット(ffhq)の70k画像と比較してsy-se曲線を得るとともに、sy-sy曲線を得る。 0.63
The resulting ROC curves are presented in figure 4. 得られたROC曲線は図4で示される。 0.85
We first focus on the Sy-Se curves. まずはSy-Se曲線に注目します。 0.57
We observe that without an ICT constraint, the Sy-Se-ROC lies below the Ref-ROC. ICT制約なしでは、Sy-Se-ROCはRef-ROCより下に位置する。 0.60
This indicates there is a higher density of lookalikes between Sy and Se than in a real population, which is here modeled by IJB-C. これは、IJB-C でモデル化された実集団よりも、Sy と Se の間に見栄えの密度が高いことを示している。 0.61
This is similar to the observation made in [32] using StyleGAN. これはStyleGANを使った[32]での観測と似ている。 0.78
In the article, they notice that this is caused by the presence of children in FFHQ, and thus also in StyleGAN’s output distribution, while SOTA face recognition networks are typically not trained on faces of children and thus perform poorly on this population. 一方、SOTAの顔認識ネットワークは一般的に子供の顔で訓練されていないため、この人口では成績が悪くなっている。
訳抜け防止モード: この記事では、FFHQに子供がいることが原因であることに気づいた。 そのため、StyleGANの出力分布でも、 SOTAの顔認識ネットワークは通常、子供の顔では訓練されないため、この人口では不十分である。
We observe the same behavior, as showcased in the leftmost columns of figure 5 that present the closest Sy-Se matches. 我々は,最も近いSy-Seマッチングを示す図5の左端列に示されているように,同じ挙動を観察する。 0.73
They solved the issue by manually removing the children, but this is unpractical if we plan to generate a large number of identities. 彼らは子供たちを手動で取り除くことでこの問題を解決したが、多数のアイデンティティを生成する計画がある場合、これは現実的ではない。 0.55
Alternatively, we can apply the ICT constraint. また、ICT制約を適用することもできる。 0.76
Indeed, this greatly reduces the amount of children in the synthetic dataset: many children candidate faces are rejected by the model used to apply the ICT constraint, as this model itself fails at distinguishing different children. 実際、これは合成データセットにおける子供の数を大幅に減少させ、多くの子ども候補顔はICT制約を適用するために使用されるモデルによって拒絶される。
訳抜け防止モード: 実際、これは合成データセットの子供の数を大幅に減らす ICT制約を適用したモデルでは,多くの児童候補顔が拒否される。 このモデル自体が違う子供の区別に失敗するからです
We showcase on the rightmost columns of figure 5 how introducing the ICT constraint impacts the closest Sy-Se lookalikes: while children are mostly removed, the lookalikes now appear to be from an east-asian population. 図5の一番右の列に、ICT制約の導入が最も近いSy-Seのような外観にどのように影響するかを示す。
訳抜け防止モード: 図5の一番右の列に示すのは ICT制約の導入は、最も近いSy - Seの外観に影響を及ぼす 子供はほとんど取り除かれるが、現在は東アジア系アジア系である。
We can hypothesize that this FR model might このFRモデルを仮定することができる。 0.65
Figure 3: To obtain a latent direction, we project in W labeled images, then fit a linear SVM to separate the latents. 図3:潜伏方向を得るために、wラベル画像に投影し、線形svmに適合して潜伏者を分離します。 0.65
The normal to the resulting hyperplane is used as the editing direction for this attribute. 得られた超平面の通常は、この属性の編集方向として使用される。 0.66
New identities are obtained by randomly sampling a Z-latent. Zラテントをランダムにサンプリングして、新しいアイデンティティを得る。 0.48
We then edit its associated W-latent using our computed latent directions to obtain variations of the original image. 次に、計算された潜在方向を用いて関連Wレイテンシを編集し、元の画像のバリエーションを求める。
訳抜け防止モード: 次に関連するW - latentを編集する 計算された潜在方向を使って 元の画像のバリエーションを入手する
previous identity. The embedding distance is measured using a Inception-ResNet-v2 model [30] pretrained on MsCeleb [15]. 以前の身元 埋め込み距離は、MsCeleb [15]で事前訓練されたInception-ResNet-v2モデル[30]を用いて測定する。 0.55
In a second pass, we generate variations for each identity using our precomputed latent directions. 第2のパスでは、あらかじめ計算された潜伏方向を用いて、各アイデンティティのバリエーションを生成する。 0.46
For scaling our edits, we use the measured average distance of Multi-PIE projections to the hyperplanes as the maximal variation. 編集をスケールするためには、マルチPIEプロジェクションから超平面への平均距離を最大変動として用いる。 0.74
Figure 1 presents example of the full set of variations obtained for a given face. 図1は、与えられた顔に対して得られるすべてのバリエーションの例を示す。 0.71
We will showcase in the following sections that this synthetic database satisfies the privacy and precision requirements, making it a good substitution to Multi-PIE to benchmark FR systems. この合成データベースは、プライバシと精度の要件を満たすものであり、FRシステムのベンチマークにMulti-PIEの代替となることを、以下に示す。 0.68
We thus name it Syn-Multi-PIE. そこでSyn-Multi-PIEと名付けた。 0.51
With a concern for reproducibility of our work, we also release the code to regenerate this database.1 Additional details on the generation algorithm can also be found in the supplementary material. 我々の研究の再現性への懸念から、このデータベースを再現するためのコードもリリースしました。1 生成アルゴリズムに関する追加詳細は補足資料にも紹介します。 0.73
4. Are StyleGAN2 identities new ? 4. StyleGAN2 IDは新しいか? 0.75
To assess the requirement of privacy, we need to verify that generated identities do not simply reproduce existing identities from the FFHQ dataset. プライバシの要件を評価するためには、生成されたIDがFFHQデータセットから既存のIDを単に再現していないことを検証する必要があります。 0.54
We evaluate this by reproducing on our synthetic dataset an experiment originally proposed in [32] on the first version of StyleGAN. 本研究は,StyleGANの最初のバージョンで[32]で提案された実験を合成データセット上で再現することによって評価する。 0.74
It consists in comparing the identity similarity between a synthetic dataset (Sy) and a seed dataset (Se), which is the dataset used to train the face generator. これは、合成データセット(Sy)とシードデータセット(Se)のアイデンティティの類似性を比較することで構成される。
訳抜け防止モード: 合成データセット(sy)間のアイデンティティの類似性を比較することで構成される。 シードデータセット(se )は フェイスジェネレータのトレーニングに使用されるデータセットです。
A third dataset (Ref) 第三のデータセット(Ref) 0.81
1https://gitlab.idia p.ch/bob/bob.paper. 1https://gitlab.idia p.ch/bob/bob.paper 0.34
ijcb2021_synthetic_d ataset ijcb2021_synthetic_d ataset 0.34
NormalizeNoiseLatent MappingnetworkSynthe sisnetworkMulti-PIE World setLeft profilesRight profilesFit linear SVMNew synthetic identityRotate leftRotate right normalizenoiselatent mapping network synthesisnetworkmult i-pie world setleft profileright profilefit linear svmnew synthetic identityrotate leftrotate right 0.69
Figure 4: ROC curves obtained when comparing identities from the synthetic dataset (Sy) to the seed dataset (FFHQ). 図4: ROC曲線は、合成データセット(Sy)とシードデータセット(FFHQ)のIDを比較する際に得られる。 0.77
The Ref-ROC is obtained using the IJB-C dataset (with the 1:1 verification protocol). IJB-Cデータセット(1:1検証プロトコル)を用いてRef-ROCを得る。 0.65
Figure 5: Closest matches in FFHQ to synthetic identities, with no ICT constraint (leftmost columns) and with an ICT constraint of 0.1 (rightmost columns). 図5: FFHQでは、ICT制約(最左列)がなく、ICT制約(最右列)が0.1(最右列)である。 0.67
still be underperforming this demographic, maybe due to it being underrepresented in the training data. いまだにこの人口統計を 過小評価している トレーニングデータに 不足があるからだ 0.66
However, a study on the demographic differentials of this model is out of the scope of this work. しかしながら、このモデルの人口統計学的差に関する研究は、この研究の範囲外である。 0.74
Despite this, our Sy-SeROC is now quite well superposed to the Ref-ROC. これにもかかわらず、私たちのSy-SeROCはRef-ROCに非常によく似ています。 0.49
This suggests there is the same density of lookalikes between the Sy and Se database as in IJB-C - at least under the scrutiny of this particular FR model. これは、Sy と Se のデータベースの間には、少なくともこの特定の FR モデルの精査の下で、IJB-C と同じ外観の密度が存在することを示唆している。 0.61
Therefore the Sy identities are as “novel” as possible. したがって、syのアイデンティティは可能な限り“ノベル”である。 0.53
Focusing on the Sy-Sy curves, we observe however that the variability of identities inside the synthetic database is lesser than in real data, but this does not invalidate the results of the Sy-Se experiment that shows that the generator is indeed not just reproducing existing FFHQ identities. しかし、sy-sy曲線に着目して、合成データベース内のアイデンティティの変動性は実データよりも小さいが、これは、ジェネレータが単に既存のffhqのアイデンティティを再現していないことを示すsy-se実験の結果を無効にするものではないことを観察する。
訳抜け防止モード: Sy-Sy曲線に着目して しかし 合成データベース内の アイデンティティの多様性は 実際のデータより小さい しかし、これはSy - Se実験の結果を無効にしません。 ジェネレータは 既存のFFHQのIDを 再現しているだけではありません
This is an important point which validates the use of synthetic face data as a way to satisfy the privacy requirement. これは、プライバシー要件を満たす方法としての合成顔データの使用を検証する重要なポイントである。 0.81
5. Can we use a synthetic dataset for bench- 5. ベンチに合成データセットを使用できるか? 0.76
marking face recognition systems ? 顔認識システムマーキング? 0.69
The central question of this work is whether we can completely replace real, sensitive FR data by synthetic and private one in a benchmark setup. この作業の中心的な疑問は、ベンチマーク設定で、リアルでセンシティブなfrデータを合成およびプライベートなfrデータに完全に置き換えられるかどうかである。 0.54
We thus have to assess Database Protocol Gabor LGBPHS AF Inc-Res.v1 Inc-Res.v2 AF-VGG2 ですから私たちは データベースプロトコル Gabor LGBPHS AF Inc-Res.v1 Inc-Res.v2 AF-VGG2 0.48
U 0.42 0.43 0.11 0.05 0.07 0.08 U 0.42 0.43 0.11 0.05 0.07 0.08 0.47
Multi-PIE E 0.46 0.42 0.3 0.14 0.15 0.16 マルチPIE E 0.46 0.42 0.3 0.14 0.15 0.16 0.60
P 0.66 0.72 0.55 0.50 0.26 0.40 P 0.66 0.72 0.55 0.50 0.26 0.40 0.47
Syn-Multi-PIE P U 0.67 0.43 0.30 0.67 0.12 0.51 0.47 0.09 0.44 0.08 0.47 0.10 Syn-Multi-PIE P U 0.67 0.43 0.30 0.67 0.12 0.51 0.47 0.09 0.44 0.08 0.47 0.10 0.43
E 0.46 0.38 0.25 0.50 0.45 0.44 E 0.46 0.38 0.25 0.50 0.45 0.44 0.47
Table 1: FNMR values at FMR@1E-3. 表1: FMR@1E-3におけるFNMR値。 0.70
We highlighted all the scores where the error rate on Syn-Multi-PIE was more that 5% away from the error rate on the equivalent Multi-PIE protocol. 我々は、Syn-Multi-PIEのエラーレートが、同等のMulti-PIEプロトコルのエラーレートから5%ほど離れているすべてのスコアを強調した。 0.69
The considered systems are a Gabor graph (Gabor) [14], a local Gabor binary pattern histogram sequence (LGBPHS) [14], and 4 neural net based systems : original ArcFace (AF) [7], ArcFace retrained on VGGFace2 (AF-VGG2) [5], Inception-ResNet models trained on CasiaWebFace (Inc-Res.v1 and v2) [27]. 検討されたシステムは、Gabor graph (Gabor) [14]、ローカルGabor binary pattern histogram sequence (LGBPHS) [14]、および4つのニューラルネットベースシステムである:オリジナルArcFace (AF) [7]、ArcFace retrained on VGGFace2 (AF-VGG2) [5]、Inception-ResNet model trained on CasiaWebFace (Inc-Res.v1 and v2) [27]。 0.85
the precision requirement, i.e. 精度の要求、すなわち、 0.64
verify whether we can do this real-to-synthetic substitution and still obtain similar conclusions on the performance of several FR systems (error rate, system ranking and robustness to different factors of variation). この実合成置換が可能であるかどうかを検証し、いくつかのFRシステム(エラー率、システムランキング、変動の異なる要因に対する堅牢性)の性能に関する同様の結論を得る。 0.77
We hypothesize that the answer to this question could depend on the range of considered variations, and on the quality of our face editing process, which might be better for some covariates than for others. この質問に対する答えは、考慮されるバリエーションの範囲や、顔の編集プロセスの品質に依存する可能性があると仮定しています。
訳抜け防止モード: この疑問に対する答えは、考慮されたバリエーションの範囲に依存する可能性があると仮定する。 顔の編集プロセスの質や 他より共変種の方が良いかもしれません
For this reason, we choose not to perform a largescale experiment which would not enable a fine analysis. そのため、我々は詳細な分析ができないような大規模な実験を行わないことにした。 0.74
Instead, we reproduce synthetically 3 Multi-PIE evaluation protocols, each of which targets a single covariate, and we compare the performance on the equivalent synthetic and real protocols. その代わりに,1つの共変量をターゲットにした3つのMulti-PIE評価プロトコルを合成的に再現し,等価な合成プロトコルと実プロトコルの性能を比較する。 0.74
The U protocol targets illumination (enrollment with frontal lightning, probing with lightning variations), the E protocol targets expression (enrollment with neutral expression, probing with other expressions), and the P protocol targets pose (enrollment with frontal view, probing with other views). uプロトコルは照明(フロントライトニングによる撮影、ライトニングのバリエーションによる撮影)、eプロトコルは表情(中性表現による撮影、他の表現による撮影)、pプロトコルはポーズ(フロントビューによる撮影、他のビューでの撮影)をターゲットにしている。 0.69
Equivalent protocols with Syn-Multi-PIE are also defined, using the generated variations shown in figure 1. Syn-Multi-PIE を用いた等価プロトコルも定義されており、図 1 に示すように生成されたバリエーションを用いている。
訳抜け防止モード: Syn - Multi - PIE の等価プロトコルも定義されている。 図1に示すように
We always use the reference image for the enrollment, and probe the system only with variations of the target covariate. 入力には常に参照画像を使用し、対象の共変量の変化のみを用いてシステムを探索する。 0.62
We use the same number of 64 identities in both setups. 両方のセットアップで同じ数の64のIDを使用します。 0.73
6 FR systems, listed in the caption of table 1, are then benchmarked on those protocols. 表1のキャプションに記載された6frシステムは、それらのプロトコルでベンチマークされる。 0.68
5.1. Experiment results Table 1 presents the measured error rates. 5.1. 実験結果 表1は測定されたエラー率を示す。 0.75
In the ArcFace row for example (AF), the first 3 columns (Multi-PIE protocols) inform on the robustness of the system to each considered factor of variation. 例えばArcFace行(AF)では、最初の3つの列(Multi-PIEプロトコル)がシステムの堅牢性について、それぞれが考慮される変動要因に通知する。 0.71
The system shows good robustness to illumination variation (U protocol, FNMR of 0.11), less robustness to expression variation (E protocol, FNMR of 0.3) and the least robustness to pose variation (P protocol, FNMR of 0.5). このシステムは、照明変化に対する堅牢性(Uプロトコル、FNMRは0.11)、表現変動に対するロバスト性(Eプロトコル、FNMRは0.3)、変化を起こさせるロバスト性(Pプロトコル、FNMRは0.5)が低い。 0.62
The last 3 columns provide 107105103101FMR0.00. - FNMRRef-ROC (IJBC 1:1)Sy-Se, ICT=0.1Sy-Sy, ICT=0.1Sy-Se, No ICTSy-Sy, No ICTSy - No ICTClosest FFHQSy - ICT 0.1Closest FFHQ 最後の3つの列は 107105103101FMR0.00. - FNMRRef-ROC (IJBC 1:1)Sy-Se, ICT=0.1Sy-Sy, no ICTSy-Sy, no ICTSy - No ICTClosest FFHQSy - ICT 0.1Closest FFHQ 0.64
(a) U - False non-matches (a)U-偽の非マッチ 0.80
(b) U - False matches (c) E - False non-matches (b)u-偽の一致 (c)E-偽の非マッチ 0.78
(d) E - False matches Protocol Compared Gabor LGBPHS AF Inc-Res.v1 Inc-Res.v2 AF-VGG2 (d)E-偽試合 Gabor LGBPHS AF Inc-Res.v1 Inc-Res.v2 AF-VGG2 0.58
U E P MGS 0.17 0.49 0.27 0.52 0.32 0.37 U E P MGS 0.17 0.49 0.27 0.52 0.32 0.37 0.76
SEP 1.6 2.58 1.2 0.85 1.06 0.97 SEP 1.6 2.58 1.2 0.85 1.06 0.97 0.47
MGS 0.05 0.14 -0.22 -0.36 -0.22 -0.4 MGS 0.05 0.14 -0.22 -0.36 -0.22 -0.4 0.39
SEP 1.11 1.34 0.97 0.7 0.68 0.68 SEP 1.11 1.34 0.97 0.7 0.68 0.68 0.47
MGS 0.09 0.17 0.21 0.43 0.05 0.16 MGS 0.09 0.17 0.21 0.43 0.05 0.16 0.47
SEP 1.19 1.36 1.27 0.89 0.84 0.92 SEP 1.19 1.36 1.27 0.89 0.84 0.92 0.47
Table 2: Comparison of summary statistics of the score histograms. 表2:スコアヒストグラムの要約統計の比較。 0.61
We report under MGS : (µGS − µGR)/|µGR| (comparison of the Mean Genuine Similarity), and under SEP : |µGS − µIS|/|µGR − µIR| (comparison of the mean SEParation between genuine and impostor scores), with µGS, µIS resp. MGS : (μGS − μGR)/|μGR| (平均ジェニューイン類似度の比較) およびSEP : |μGS − μIS|/|μGR − μIR| (真と偽のスコアの平均SEParationの比較) をμGS, μIS respで報告する。 0.77
the mean Genuine & Impostor scores for the Synthetic protocol, and µGR, µIR the same but for the equivalent Real protocol. Genuine & Impostorの平均スコアはSyntheticプロトコルで、μGR, μIRは同じだが、同等のRealプロトコルでである。 0.83
For MGS, any value > 0 indicates a higher average similarity in genuine synthetic comparisons than in genuine real comparisons. mgs の場合、任意の値 > 0 は真の合成比較において実際の実比較よりも高い平均類似性を示す。 0.74
For SEP, any value > 1 indicates a stronger separation of the synthetic impostor & genuine distributions than of the real ones. SEP の場合、任意の値 > 1 は、実際のものよりも合成インポスタと真の分布のより強い分離を示す。 0.71
now try to explain those failure cases. 失敗事例を説明してみましょう 0.55
To do so, we study some visual examples of the worst false matches and nonmatches in Syn-Multi-PIE protocols, in figure 6. そこで,Syn-Multi-PIEプロトコルにおける最悪の偽一致と非一致の視覚的例を図6に示す。 0.72
We especially focus on the Inception-ResNet v2 system, on which we also performed the identity uniqueness experiment in section 4. 特に,inception-resnet v2システムに着目し,第4節でアイデンティティ一意性実験を行った。 0.70
Moreover, we also compare some summary statistics of the score histograms, which are presented in table 2. さらに,表2に示すスコアヒストグラムの要約統計を比較検討した。
訳抜け防止モード: また,スコアヒストグラムの要約統計との比較を行った。 表2に示されます
(e) P - False non-matches (e)P-偽の非マッチ 0.83
(f) P - False matches 5.2. (f)p-偽の一致 5.2. 0.74
Identity preservation アイデンティティ保存 0.61
Figure 6: Worst matches at FMR@1E-3 with the InceptionResNet v2 system evaluated on Syn-Multi-PIE. 図6: FMR@1E-3 と InceptionResNet v2 システムは Syn-Multi-PIE で評価された。 0.69
Additional examples are provided in the supplementary material. 補充材料に追加の例が提供される。 0.67
the same information using Syn-Multi-PIE instead. Syn-Multi-PIE と同じ情報である。 0.65
We observe that our synthetic protocols are a good substitute to the real protocols, with a majority of Syn-Multi-PIE error rates lying at less than 5% from the error rate on the corresponding Multi-PIE protocol. 我々は,我々の合成プロトコルが実プロトコルの代替となることを観察し,Syn-Multi-PIEの誤差率は,対応するMulti-PIEプロトコルのエラー率から5%以下である。 0.92
Qualitatively speaking, this means Syn-Multi-PIE satisfies the requirement of precision, but there are still some imperfections. 質的に言えば、これはSyn-Multi-PIEが精度の要求を満たすことを意味するが、まだいくつかの欠陥がある。 0.52
For illumination protocols the error rates follow a very similar trend, with the exception of the LGBPHS system. 照明プロトコルでは、LGBPHSシステムを除いてエラーレートは非常によく似た傾向にある。 0.68
For pose protocols, there is a bit more discrepancy with the Inception-ResNet v2 and the ArcFace-VGG2 models, however the ranking of the systems remain very similar, with a clear performance improvement when using neural nets, and with InceptionResNet v2 appearing as the best model on this protocol. ポーズプロトコルについては、inception-resnet v2とarcface-vgg2モデルとの差異が少し大きいが、システムランキングは、ニューラルネットワークを使用する際に明らかにパフォーマンスが向上し、inceptionresnet v2はこのプロトコルの最良のモデルとして現れる。 0.72
The picture is less clear on the expression protocols, with the Inception-ResNet and ArcFace-VGG2 models presenting significantly subpar performance on Syn-Multi-PIE. Inception-ResNetとArcFace-VGG2モデルはSyn-Multi-PIEでかなり性能が劣っている。 0.49
We We crucially want to check that we are correctly preserving identity during the latent editing process. 私たち 潜在編集プロセス中にアイデンティティを正しく保持していることを確認したいのです。 0.64
Let us emphasize that the “difficulty” of the synthetic protocols and hence the obtained error rates will be correlated with the strength of the editing. ここで強調するのは、合成プロトコルの“差異”と、得られたエラー率と、編集の強度との相関性を強調します。 0.69
In particular, when we get a false non-match, is it because the FR system lacks robustness to the particular variation we are considering, or is it because the FR system is actually right and our image editing did not preserve the identity ? 特に、偽の非マッチングを受ける場合、FRシステムは検討している特定の変動に対して堅牢性に欠けるためなのか、あるいはFRシステムが実際に正しく、画像編集がアイデンティティを保存していないためなのか?
訳抜け防止モード: 特に、偽の非一致が得られれば。 FRシステムは、私たちが検討している特定のバリエーションに堅牢性がないからです。 それとも それは FRシステムは実際正しい 画像編集はIDを保存しなかったのか?
The highlighted discrepancies in table 1 showcasing mainly excessive error rates, it suggests we might indeed be in the situation of overly strong edits that do not preserve identity well. 表1の強調された相違は、主に過度なエラー率を示しており、アイデンティティをよく保たない過度に強い編集の状況にあることを示唆している。 0.73
Those would indeed appear as false non matches in the analysis, as we still label those overly edited images as having the same identity as the reference. とはいえ、これらの過剰に編集された画像は、参照と同じ同一性を持つとラベル付けしているので、これらは分析において偽の非一致に見えます。
訳抜け防止モード: これらは実際には、解析において偽の非一致として現れる。 過度に編集された画像は 参照と同じIDだ
We thus consider the worst false non matches : examples are presented in figures 6a, 6c and 6e. したがって、最悪の偽非一致を考える:例は図6a、6c、6eで示される。 0.72
Assessing preservation of identity is a subjective question. アイデンティティの保存を評価することは主観的な問題である。 0.48
Readers can make their own opinion from the provided examples, but an extensive perceptual study would be necessary to answer this question more thoroughly. 読者は、提示された例から独自の意見を得ることができるが、この質問に答えるためには広範な知覚的研究が必要である。
訳抜け防止モード: 読者は提供された例から独自の意見を得ることができる。 より徹底的に答えるには 広範な知覚研究が必要です
The examples at least suggest that identity preservation 少なくともその例はアイデンティティの保存を示唆している 0.58
ReferencesGenuinesRe ferencesImpostorsRef erencesGenuinesRefer encesImpostorsRefere ncesGenuinesReferenc esImpostors 参照: GenuinesReferencesIm postorsReferencesGen uinesReferencesImpos torsReferencesGenuin esReferencesImpostor s 0.03
is good when doing illumination and expression editing. イルミネーションや表現の編集にも役立ちます 0.52
For pose editing however, the worst false matches contain enough perturbations to the facial details to possibly alter the identity. しかし、ポーズ編集では、最悪の偽の一致には、顔の詳細に十分な摂動が含まれており、同一性を変更する可能性がある。
訳抜け防止モード: しかし、ポーズ編集では、最悪の偽の一致は、顔の詳細に十分な摂動を含む。 身元を変えるために
In this context our identity labeling could be partially erroneous, thus causing an increased number of false non matches. この文脈では、我々のアイデンティティラベリングは部分的に誤っているため、偽の非一致が増加する可能性がある。 0.57
We could limit this issue by reducing the strength of the pose editing and renouncing to the most extreme angles. 我々は、ポーズ編集の強度を減らし、最も極端な角度を無視することでこの問題を制限することができる。 0.69
But the root cause might be an underrepresentation of extreme poses in the FFHQ dataset (and thus in StyleGAN2’s output distribution) making the model fundamentally unable to generate far-from-frontal images. しかし、根本原因はffhqデータセット(そしてstylegan2の出力分布)における極端な状況の過小表示であり、モデルが基本的に正面から離れた画像を生成することができない可能性がある。
訳抜け防止モード: しかし、根本原因はFFHQデータセットにおける極端なポーズの表現不足かもしれない (そして、StyleGAN2の出力分布) モデルが正面画像から遠方から生成できないようにすること。
To perform this analysis in a more objective manner, we can also read the Mean Genuine Similarity (MGS) comparison values in table 2. この分析をより客観的に行うために、表2で平均遺伝子類似性(MGS)の比較値を読むこともできる。 0.79
An overly edited face image would generate an excessively low similarity score when compared to its reference. 過度に編集された顔画像は、参照と比較して過度に低い類似度スコアを生成する。 0.66
If our editing is too strong, we should thus observe a significant drop in the average synthetic genuine similarity score. 編集が強すぎる場合は、平均的な合成真の類似度スコアが大幅に低下するのを観察する必要がある。 0.63
In contrary, we observe that for the U and P protocol, the MGS is never lower in Syn-Multi-PIE than it is in Multi-PIE (all reported values are positive), which suggests that for both those covariates the editing is not too strong. 対照的に、U と P のプロトコルでは、MGS は Multi-PIE よりも Syn-Multi-PIE の方が低いことはない(全ての値が正である)。
訳抜け防止モード: それとは対照的に、U と P のプロトコルでは、これを観測する。 Syn - Multi - PIE において MGS は決して低下しない Multi - PIE の略。 (全ての報告値が正) 両者の共変量については 編集があまり強くないことが 示唆されます
The negative MGS comparison values with the E protocol might however hint towards slightly excessive expression editing. 負のMGS比較値をEプロトコルと比較すると、わずかに過剰な表現編集の可能性が示唆される。 0.60
5.3. High similarity impostors 5.3. 高類似性インポスタ 0.62
Another possible cause of score discrepancy between synthetic and real protocols could be an excessive amount of very close synthetic identities causing a large number of high-score impostors. 合成プロトコルと実際のプロトコルのスコア差の原因は、非常に近い合成アイデンティティの過剰な量であり、多数のハイスコアインポスタが生じる可能性がある。 0.65
We showcase some of the worst false matches in figures 6b, 6d and 6f. フィギュア6b、6d、6fで最悪の偽マッチをいくつか紹介する。 0.62
We first notice that all those false matches are between feminine looking faces. 私たちはまず、すべての偽の一致が女性の顔の間にあることに気付きました。 0.51
This could be a possible indicator of a demographic differential of the Inception-ResNet v2 system against a feminine population, however it should then also occur during the Multi-PIE evaluation and it should not cause such a strong difference in performance. これは女性人口に対するInception-ResNet v2システムの人口差を示す可能性があるが、Multi-PIE評価の際にも発生すべきであり、パフォーマンスにそのような大きな違いをもたらすべきではない。 0.75
It can however be argued that some of the impostor identities actually do look very similar to the reference, to the point where a human judge might also consider them to be the same person. しかし、いくつかの虚偽の同一性は実際に参照と非常によく似ており、人間の裁判官がそれらも同一人物であると考えることができる。 0.71
As seen in section 4, the amount of variability between synthetic identities has been measured to be lower than in real data: we might be seeing the effect of this lack of variability. 第4節に示すように、合成アイデンティティ間のばらつきの量は実データよりも小さく、このばらつきの欠如の影響が見られるかもしれない。 0.67
The summary statistics (SEP values in table 2) lead to the same conclusion : for neural-net based models, on E and P protocols, the distance between the impostor and genuine distributions is significantly smaller with Syn-Multi-PIE than it is with Multi-PIE. 要約統計(表2のSEP値)は同じ結論に導かれる: E と P プロトコル上では、インポスタと真の分布の間の距離は、Multi-PIE よりもSyn-Multi-PIE の方がかなり小さい。 0.76
Even though we applied the ICT constraint when generating the references, it seems the subsequent face editions are enough to give way for many high score impostors, which are then responsible for the performance discrepancy w.r.t. 参照を生成する際にICT制約を適用したとしても、その後の顔版では多くのハイスコアインポスタに道を譲るには十分であるように思われる。
訳抜け防止モード: 参照を生成する際にICT制約を適用したにもかかわらず。 その後のフェイスエディションでは 多くのハイスコア・インポスタに道を譲ります パフォーマンス上の不一致の原因はw.r.t.です
the Multi-PIE benchmarks. Multi-PIEベンチマーク。 0.55
In other terms, although for each synthetic identity we 言い換えれば、それぞれの合成同一性については、 0.66
seem to span a realistic set of variations, the identities still are closer from each other than real ones, and so there is more overlap between each of those identity-variation sets, causing an excessive amount of false matches. 現実的なバリエーションのセットにまたがるように見えるが、そのアイデンティティは依然として実際のものよりも互いに近いため、それぞれのアイデンティティ変数セットの間にはより重なり合いがあり、過剰な誤マッチを引き起こす。 0.71
A natural way to fix this issue would be to increase the ICT value to spread out synthetic identities even more. この問題を解決する自然な方法は、ICTの価値を高め、さらに合成IDを広めることである。 0.71
But the issue that comes then is that with pure random sampling, we start to reject a high number of candidates when generating the reference identities, making the runtime grow quickly with the number of identities. しかし、そこで生じる問題は、純粋なランダムサンプリングによって、参照IDを生成する際に、多数の候補を拒否し始め、ランタイムがアイデンティティの数で急速に増加することである。 0.74
Moreover, the ICT constraint is just a tentative to “fix” the lack of variability of StyleGAN2 identities. さらにICT制約は、StyleGAN2アイデンティティの多様性の欠如を“修正”するための暫定的な手段に過ぎない。 0.69
We can hope future improvements in face GANs will further increase the richness of their output distribution, in particular identity variability. GANの今後の改善によって、出力分布の豊かさ、特にアイデンティティの多様性がさらに向上することを期待しています。 0.60
6. Conclusion In this work, we have presented a method to generate synthetic databases for face recognition by exploiting the StyleGAN2 latent space. 6. 結論 本稿では,stylegan2の潜在空間を活用し,顔認識のための合成データベースを生成する手法を提案する。 0.77
This has enabled us to introduce the Syn-Multi-PIE dataset, which presents the same factors of variation as the Multi-PIE database, but does not contain any real identity and thus can be shared much less restrictively. これにより、Multi-PIEデータベースと同じ変動要因を示すSyn-Multi-PIEデータセットを導入することができるが、実際のアイデンティティは含まないため、制限的に共有することができない。 0.69
Moreover, our database construction process is automatic and can be extended to other covariates. さらに,我々のデータベース構築プロセスは自動であり,他の共変量にも拡張可能である。 0.69
Benchmark experiments carried out with 6 face recognition systems have shown that Syn-Multi-PIE can be used in place of Multi-PIE and lead to similar conclusion on the systems’ error rates and ranking. 6つの顔認識システムを用いて行われたベンチマーク実験により、Syn-Multi-PIEはMulti-PIEの代わりに使用でき、システムのエラー率とランキングに関して同様の結論が得られた。 0.68
While we have noticed some performance discrepancies in some of the setups, our analysis suggests those discrepancies generally do not seem to be caused by our editing method, which looks to preserve identity quite well. いくつかの設定でパフォーマンスのばらつきに気付きましたが、分析によれば、これらのばらつきは一般的に私たちの編集方法に起因していないようです。 0.62
We do note that our quantitative observations (MGS) on expression editing raise some doubt on the quality of the identity preservation in this context, however the visual examples (false non-matches) reinforce the claim. 表現編集に関する我々の定量的観察(mgs)は、この文脈におけるアイデンティティ保存の質に疑問を投げかけるが、視覚的な例(不一致)は主張を補強する。
訳抜け防止モード: 表現編集における量的観察(MGS)は,この文脈におけるアイデンティティ保存の質に疑問を呈している。 しかし、視覚的な例(偽の非一致)は主張を補強する。
In a future study, it could be useful to perform a perceptual study with human raters, as it remains the only way to fully validate identity preservation. 将来の研究では、アイデンティティの保存を十分に検証する唯一の方法であり、人間のレイパーによる知覚的研究を行うのに役立つかもしれない。 0.63
Overall, performance discrepancies seem rather caused by limitations of the generative capacity of StyleGAN2, mainly the lack of variability of generated identities, and a lack of extreme poses in the bulk of the output distribution. 全体として、パフォーマンスの相違は、StyleGAN2の生成能力の限界、生成したアイデンティティの多様性の欠如、出力分布の大部分における極端なポーズの欠如によって引き起こされているように思われる。 0.61
The field of generative face models currently following a very fast evolution, we expect those issues to improve as new models emerge able to produce an even more realistic output image distribution. 現在、生成顔モデルの分野では非常に高速な進化を遂げており、新たなモデルが登場してよりリアルな出力画像の分布が生まれるにつれて、これらの問題は改善されると予想している。 0.65
Other usages for synthetic data can be conceived. 合成データの他の用途も考えられる。 0.79
Given the available semantic control in the W space, one could for example generate datasets with a balanced density of each demographics (gender, age or race), which could be of use to expose possible demographic differentials in current SOTA systems. w空間で利用可能なセマンティクスコントロールを考えると、例えば、現在のsotaシステムで可能な人口差を露出するために使用できる、それぞれの人口統計(世代、年齢、人種)のバランスのとれた密度のデータセットを生成することができる。 0.67
Finally, our generation process scaling at least to 10k+ identities, a natural next step would be 最後に、私たちの生成プロセスは少なくとも10k以上のIDにスケーリングします。 0.64
to generate a large-scale dataset and assess its usability for training FR models while solving the data privacy issue. データプライバシ問題を解決しつつ、大規模データセットを生成し、frモデルのトレーニングにおけるユーザビリティを評価する。 0.64
This direction has indeed not been deeply explored, at least using GAN-based generative models. この方向は、少なくともGANベースの生成モデルを用いて、明らかに深く研究されていない。 0.56
Again, it would probably require a stronger preliminary verification of the identity preservation at the editing step, else we can foresee mislabeled synthetic images causing issues during the training, leading to subpar performance. また、おそらくは、編集段階でのアイデンティティ保存の事前検証が必要であるだろうが、トレーニング中に問題を引き起こした誤ってラベルされた合成画像を予測でき、パフォーマンスが低下する可能性がある。
訳抜け防止モード: 繰り返すが、おそらく編集段階におけるアイデンティティ保存のより強力な事前検証が必要であるだろう。 トレーニング中に問題を引き起こす 合成画像の誤ラベルを予測できる パフォーマンスの低下につながります
References [1] https://github.com/r olux/stylegan2encode r. 参照 [1] https://github.com/r olux/stylegan2encode r。 0.52
[2] R. Abdal et al [2] R. Abdal et al 0.96
Image2StyleGAN: How to Embed Images In 2019 IEEE/CVF Into the StyleGAN Latent Space? Image2StyleGAN: 2019年にIEEE/CVFをStyleGANのラテントスペースに埋め込むには? 0.71
International Conference on Computer Vision (ICCV), pages 4431–4440, Oct. 2019. 国際コンピュータビジョン会議(ICCV)、4431-4440頁、2019年10月。 0.77
ISSN: 2380-7504. ISS:2380-7504。 0.35
[3] G. Antipov et al Face aging with conditional generative adversarial networks. G. Antipov et al Face aging with conditional generative adversarial network。 0.65
In 2017 IEEE International Conference on Image Processing (ICIP), pages 2089–2093, Sept. 2017. 2017年IEEE International Conference on Image Processing (ICIP)、2089–2093頁、2017年9月。 0.84
ISSN: 2381-8549. ISS:2381-8549。 0.42
[4] J. Bao et al Towards Open-Set Identity Preserving Face In 2018 IEEE/CVF Conference on Computer Synthesis. J. Bao et al towardss Open-Set Identity Preserving Face In 2018 IEEE/CVF Conference on Computer Synthesis。 0.80
Vision and Pattern Recognition (CVPR), pages 6713–6722, June 2018. Vision and Pattern Recognition (CVPR), page 6713–6722, June 2018 0.80
ISSN: 2575-7075. ISSN 2575-7075。 0.85
[5] Q. Cao et al VGGFace2: A Dataset for Recognising Faces In 2018 13th IEEE International across Pose and Age. Q. Cao et al VGGFace2: A Dataset for Recognising Faces In 2018 13th IEEE International across Pose and Age 0.76
Conference on Automatic Face Gesture Recognition (FG 2018), pages 67–74, May 2018. Conference on Automatic Face Gesture Recognition (FG 2018), page 67–74, May 2018 0.80
[6] D. Crispell et al Dataset Augmentation for Pose and arXiv:1704.04326 [6]D. Crispell et al Dataset Augmentation for Pose and arXiv:1704.04326 0.84
Lighting Invariant Face Recognition. ライティングの不変な顔認識。 0.52
[cs.CV], Apr. [cs.cv], apr. 0.86
2017. [7] J. Deng et al ArcFace: Additive Angular Margin Loss for Deep Face Recognition. 2017. J. Deng氏とal ArcFace: ディープフェイス認識のための追加のAngular Margin Loss。 0.80
arXiv:1801.07698 [cs], Feb. 2019. arXiv:1801.07698 [cs] 2019年2月。 0.69
[8] H. Ding et al ExprGAN: Facial Expression Editing With Controllable Expression Intensity. 8] h. ding et al exprgan: 表情を制御可能な強度で編集する。 0.66
Proceedings of the AAAI Conference on Artificial Intelligence, 32(1), Apr. AAAI Conference on Artificial Intelligence, 32(1), Apr に参加して 0.72
2018. [9] C. Donahue et al Semantically decomposing the latent spaces of generative adversarial networks. 2018. 9] C. Donahue et al Semantically decomposing the Latent space of Generative adversarial network。 0.81
In International Conference on Learning Representations, 2018. 2018年、国際学習表現会議に参加。 0.75
[10] European Commission. 欧州委員会[10]。 0.66
General data protection regulation - processing of special categories of personal data, 2018. https://gdpr-info.eu /art-9-gdpr/. general data protection regulation - processing of special categories of personal data, 2018. https://gdpr-info.eu /art-9-gdpr/ 0.69
[11] P. Ghosh et al GIF: Generative interpretable faces. 11] p. ghosh et al gif: 生成的解釈可能な顔。 0.76
In International Conference on 3D Vision (3DV), 2020. 院 International Conference on 3D Vision, 2020 (英語) 0.60
[12] I. Goodfellow et al Generative Adversarial Nets. 12] I. Goodfellow et al Generative Adversarial Nets. 0.81
In Z. Ghahramani et al , editors, Advances in Neural Information Processing Systems 27, pages 2672–2680. Z. Ghahramani et al , editors, Advances in Neural Information Processing Systems 27 page 2672–2680。 0.84
Curran Associates, Inc., 2014. curran associates, inc., 2014年。 0.64
[13] R. Gross et al Multi-PIE. [13]R. Gross et al Multi-PIE 0.85
In 2008 8th IEEE International Conference on Automatic Face Gesture Recognition, pages 1–8, Sept. 2008. 2008年の第8回IEEE International Conference on Automatic Face Gesture Recognition, page 1-8, 9月 0.85
[14] M. G¨unther, L. El Shafey, and S. Marcel. 14] m.g.グーンサー、l.エル・シャフィー、s.マルセル。 0.57
Face recognition in challenging environments: An experimental and reproducible research survey. 挑戦的環境における顔認識:実験的かつ再現可能な調査。 0.77
In T. Bourlai, editor, Face Recognition Across the Imaging Spectrum. T. Bourlai, Editor, Face Recognition Across the Imaging Spectrum 0.70
Springer, 1 edition, Feb. 2016. Springer, 1 edition, 2016年2月。 0.92
[15] Y. Guo et al MS-Celeb-1M: A dataset and benchmark for Y. Guo et al MS-Celeb-1M: データセットとベンチマーク 0.79
large-scale face recognition. In ECCV, 2016. 大規模な顔認識。 2016年、ECCV。 0.66
[16] A. Harvey. A. Harvey, A. Harvey. 0.71
Exposing.ai: Microsoft Celeb. Exposing.ai: Microsoft Celeb 0.94
[17] Z. He et al AttGAN: Facial Attribute Editing by Only IEEE Transactions on Image [17]Z。 He et al AttGAN:画像上のIEEEトランザクションのみによる顔属性編集 0.75
Changing What You Want. 欲しがるものを変える。 0.66
Processing, 28(11):5464–5478, Nov. 2019. 処理,28(11):5464–5478,2019年11月。 0.73
[18] K. Hill and J. 18]k.ヒルとj. 0.67
White. Designed to Deceive: Do These People 白。 人を騙すためにデザインされた 0.64
Look Real to You? リアルに見えますか? 0.62
The New York Times, Nov. 2020. ニューヨーク・タイムズ、2020年11月。 0.76
[19] T. Karras et al Analyzing and Improving the Image Quality of StyleGAN. [19]T. Karras et al Analyzing and Improving the Image Quality of StyleGAN。 0.79
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8110– 8119, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 8110–8119, 2020。 0.92
[20] A. Kortylewski et al Training Deep Face Recognition Systems with Synthetic Data. 20] a. kortylewski et al training deep face recognition systems with synthetic data。 0.74
arXiv:1802.05891 [cs.CV], Feb. 2018. arXiv:1802.05891 [cs.CV] 2018年2月。 0.63
[21] M. Liu et al STGAN: A Unified Selective Transfer Network In 2019 IEEE/CVF for Arbitrary Image Attribute Editing. IEEE/CVF for Arbitrary Image Attribute Editing.[21] M. Liu et al STGAN: A Unified Selective Transfer Network In 2019 IEEE/CVF for Arbitrary Image Attribute Editing 0.75
Conference on Computer Vision and Pattern Recognition (CVPR), pages 3668–3677, June 2019. コンピュータビジョンとパターン認識に関する会議(cvpr)、ページ3668-3677、2019年6月。 0.74
ISSN: 2575-7075. ISSN 2575-7075。 0.85
[22] R. T. Marriott et al A 3D GAN for Improved Large-pose [22] R. T. Marriott et al A 3D GAN for Improved Large-pose 0.88
Facial Recognition. arXiv:2012.10545 [cs], Dec. 2020. 顔認識。 arXiv:2012.10545 [cs], Dec. 2020 0.77
[23] R. T. Marriott et al Taking control of intra-class variation in conditional gans under weak supervision. [23] R. T. Marriott et al 弱監督下の条件ガンのクラス内変動の制御 0.74
In 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020) (FG), pages 257–264, Los Alamitos, CA, USA, may 2020. 2020年の第15回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020) (FG), page 257–264, Los Alamitos, CA, USA, may 2020。 0.90
IEEE Computer Society. IEEE Computer Society所属。 0.90
[24] B. Maze et al IARPA Janus Benchmark - C: Face Dataset and Protocol. B. Maze et al IARPA Janus Benchmark - C: Face Dataset and Protocol。 0.67
In 2018 International Conference on Biometrics (ICB), pages 158–165, Feb. 2018. 2018 International Conference on Biometrics (ICB), page 158–165, Februaryb. 2018 0.79
[25] M. Murgia and M. Harlow. 25]m. murgiaとm. harlow。 0.64
Who’s using your The ugly truth about recognition, Apr. 認識に関するひどい真実を誰が使っているのか、Apr。 0.53
https://www.ft.com/c ontent/cf19b956-60a2 -11e9- https://www.ft.com/c ontent/cf19b956-60a2 -11e9- 0.18
facial face? 2019. b285-3acd5d43599e. 顔 顔? 2019年 b285-3acd5d43599e 0.61
[26] Y. Nitzan et al Face identity disentanglement via latent space mapping. [26] Y. Nitzan et al Face ID disentanglement via latent space mapping。 0.74
ACM Transactions on Graphics, 39(6):225:1– 225:14, Nov. 2020. ACM Transactions on Graphics, 39(6):225:1–225:14, Nov. 2020 0.83
[27] T. d. F. Pereira et al Heterogeneous Face Recognition Using Domain Specific Units. [27]T. D. F. Pereira et al Heterogeneous Face Recognition using Domain Specific Units。 0.92
IEEE Transactions on Information Forensics and Security, 14(7):1803–1816, July 2019. IEEE Transactions on Information Forensics and Security, 14(7):1803–1816, July 2019 0.91
[28] Y. Shen et al [28]Y.Shen et al 0.89
Interpreting the Latent Space of GANs for In Proceedings of the IEEE/CVF Semantic Face Editing. IEEE/CVFセマンティック顔編集におけるGANの潜時空間の解釈 0.64
Conference on Computer Vision and Pattern Recognition (CVPR), pages 9243–9252, 2020. コンピュータビジョンとパターン認識に関する会議(cvpr)、9243-9252ページ、2020年。 0.77
[29] K. Sumi et al [29]K.Sum et al 0.81
Study on Synthetic Face Database for Performance Evaluation. パフォーマンス評価のための合成顔データベースに関する研究 0.85
In D. Zhang and A. K. Jain, editors, Advances in Biometrics, Lecture Notes in Computer Science, pages 598–604, Berlin, Heidelberg, 2005. D. Zhang と A. K. Jain, editors, Advances in Biometrics, Lecture Notes in Computer Science, page 598–604, Berlin, Heidelberg, 2005 に掲載。 0.95
Springer. [30] C. Szegedy et al Inception-v4, Inception-ResNet and the impact of residual connections on learning. Springer 30] C. Szegedy et al Inception-v4, Inception-ResNet, そして学習における残差接続の影響。 0.65
In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, AAAI’17, pages 4278–4284, San Francisco, California, USA, Feb. 2017. In Proceedings of the Thir-First AAAI Conference on Artificial Intelligence, AAAI’17, page 4278–4284, San Francisco, California, USA, February 2017 0.87
AAAI Press. [31] D. S. Trigueros et al AAAIプレス [31]D.S. Trigueros et al 0.72
Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy. 顔認識精度向上のためのフォトリアリスティックトレーニングデータの生成 0.73
arXiv:1811.00112 [cs, stat], Oct. 2018. arXiv:1811.00112 [cs, stat], October 2018 0.93
[32] V. Varkarakis et al Validating Seed Data Samples for Synthetic Identities – Methodology and Uniqueness Metrics. 32] v. varkarakis et al 種データサンプルの合成id - 方法論と一意性指標。 0.67
IEEE Access, 8:152532–152550, 2020. IEEE Access, 8:152532–152550, 2020。 0.76
[33] D. Yi et al Learning Face Representation from Scratch. [33]D.Yi et al Learning Face Representation from Scratch. 0.82
arXiv:1411.7923, Nov. 2014. arxiv:1411.7923, 2014年11月。 0.43
A. Database generation details A。 データベース生成の詳細 0.79
In this section we provide a bit more technical details on the synthetic database generation process. 本稿では、合成データベース生成プロセスに関する技術的な詳細について述べる。 0.75
First, we describe the database projection protocol, which for each covariate of interest specifies which subset of images we project to form the two latent populations on which the SVM is fitted. まず、関心の共変量毎に、SVMが適合する2つの潜在集団を形成するために投影する画像のサブセットを特定するデータベースプロジェクションプロトコルについて述べる。 0.74
We then provide some details on the generation of reference images, in particular on the face neutralization process, including a pseudocode algorithm. 次に、特に擬似符号アルゴリズムを含む顔中和過程における参照画像の生成について、いくつかの詳細を述べる。 0.74
Finally, we present in a second pseudocode the process of generating variations for each identity, using the precomputed latent directions. 最後に、事前計算された潜伏方向を用いて、各アイデンティティの変動を生成する第2の擬似符号を示す。 0.58
A.1. Database projection protocol A.1。 データベース投影プロトコル 0.70
We project the Multi-PIE database [13]. プロジェクトです Multi-PIE データベース [13]。 0.70
For each identity, it contains face images with labeled covariates for expression, view angle and lightning direction. 各アイデンティティには、表現、ビュー角、ライニング方向を表すラベル付き共変数の顔画像が含まれている。 0.61
The available expressions are neutral, smile, disgust, scream, squint, surprise. 利用可能な表現は、中立、笑顔、嫌悪感、悲鳴、しゃがみ、驚きである。 0.65
For notation convenience, we number them in that order from 0 to 5. 表記の便宜上、0から5までの順に番号を付けます。 0.66
We project the world set of Multi-PIE, then use the projected latents to fit SVMs in W and find interesting latent directions. We project the world set of Multi-PIE, then the projected latents to fit SVMs in W and find interesting latent directions。 0.81
Table 3 specifies our protocol, i.e. 表3はプロトコルを指定する。 0.72
which subset of the projected latents are used to compute each of the latent directions of interest. 投射された潜伏者のサブセットは それぞれの潜伏方向を計算するのに使われます 0.51
After this process we have access to the following latent directions (unit vector normals to the SVMs hyperplanes) : left-right pose edition (ˆnP), left-right illumination edition (ˆnI), and edition between any pair of expressions, for example ˆn01 for neutral-to-smile and ˆn02 for neutral-to-disgust. このプロセスの後、我々は次の潜在方向(SVM の超平面への単位ベクトル正規化)にアクセスする: 左右のポーズ版、左の照明版、および任意の式間のエディション、例えば、中性から中性へのsmile や、中性から嫌悪へのsgust などである。 0.64
We also need some notion of scaling, i.e. スケーリングという概念も必要です。 0.43
to determine how much we can move along a given latent direction while still preserving the identity and realism of the face. 顔のアイデンティティとリアリズムを保ちながら、ある潜在方向に沿ってどれだけ動くことができるかを決定する。 0.60
As a reasonable heuristic, we thus also keep track of the mean distance to the hyperplane of each population of projected P for the left and right pose, latents. したがって、合理的なヒューリスティックとして、プロジェクテッドpの各々の人口の超平面に対する平均距離を左右のポーズ、潜在者に対して追跡する。 0.66
We denote it by dL 01 and I ,dR dL 01 for example for the neutral and smile populations with d1 respect to the ˆn01 hyperplane. dL 01 と I ,dR dL 01 で表し、例えば、n01超平面に関して d1 を持つ中性および笑顔の集団を表す。 0.77
I for the left and right illumination, and by d0 I for the left and right lightumination, and by d0 0.83
P , dR A.2. Generation of identities P,dR A.2。 アイデンティティの生成 0.69
Algorithm 1 explains in pseudocode the process of generating the references, using our notation from before for the latent directions. アルゴリズム1は、先行する方向の表記を用いて、参照を生成する過程を擬似コードで説明します。 0.79
It includes a neutralization step, during which the candidate face is edited to have frontal view, frontal lightning and neutral expression. 中性化のステップが含まれており、その段階で候補の顔がフロントビュー、フロントライトニング、ニュートラル表現を持つように編集される。 0.56
After neutralization, candidate faces are optionally rejected based on the comparison of their embedding distance to all previous faces w.r.t the required ICT. 中立化後、その埋め込み距離と必要なICTのすべての前の顔との比較に基づいて、候補顔は任意に拒否される。 0.64
Figure 7 presents example of generated faces before and after the neutralization process. 図7は、中和過程の前後に生成された顔の例です。 0.67
Figure 7: Examples of generated faces before and after the face neutralization process. 図7: 顔中和プロセスの前後で生成された顔の例。 0.79
While the expression neutralization seems qualitatively successful, it is not the case for pose neutralization. 表現中和は質的に成功したように見えるが、ポーズ中和の場合ではない。 0.52
But we do not need the faces to be perfectly frontal : the only aim is to make sure to keep reasonable poses when editing the image along the pose editing direction, so we simply need to start close to a frontal view. 唯一の目的は、ポーズ編集方向に沿って画像を編集する際に合理的なポーズを取ることであり、正面からの視点に近づく必要がある。
訳抜け防止モード: しかし、顔が完全に正面にある必要はない 唯一の目的は ポーズ編集方向に沿って画像を編集する際に、適切なポーズを確実に保つこと。 正面からの眺めに 近づかなくてはなりません
Illumination neutralization is not very visible, due to the absence of extreme illuminations in the typical uncontrolled output of StyleGAN2. 照明中性化は、スタイルガン2の典型的な制御されていない出力に極端な照明がないため、あまり目立たない。 0.61
A.3. Generation of variations A.3。 バリエーションの生成 0.67
Algorithm 2 presents in pseudocode the process of generating variations for each reference, using the precomputed latent editing directions. アルゴリズム2は、予め計算された潜在編集方向を用いて、各参照に対するバリエーションを生成するプロセスを擬似コードで提示する。 0.60
B. Visual examples In this section, we provide some more visual examples of false matches / non-matches obtained at FAR@1E-3 when evaluating the Inception-ResNet v2 system on the SynMulti-PIE protocols, respectively U, E and P in figures 8, 9 and 10. B。 視覚例 本稿では、図8,9,10において、シンマルチパイプロトコル上でinception-resnet v2システムを評価する際に、far@1e-3で得られる偽の一致/不一致のより視覚的な例を示す。 0.74
Attribute Expression Pose Illumination Attribute Expression Pose Illumination 0.85
Expressions Cameras All 表現 カメラ すべて 0.72
Neutral Neutral Non frontal views in [−45◦, 45◦] 中立性 非正面視, [-45, 45] 0.59
Frontal view Frontal view Lightning Frontal flash Frontal flash 正面視 正面視 雷前部フラッシュ前部フラッシュ 0.72
All non frontal with flash flashですべての非フロント 0.83
Binary classes All expression pairs Left & right profiles Left & right flashes バイナリクラス 左と右の全ての表現ペア 左と右のフラッシュ 0.71
Table 3: Description of the Multi-Pie subsets used to compute the latent directions for each attribute. 表3: 各属性の潜在方向を計算するために使用されるマルチパイサブセットの記述。 0.78
Algorithm 1 Creation of reference identities アルゴリズム1 参照IDの作成 0.69
procedure NEW ID(Wprev, ICT) 手続きNEW ID(Wprev, ICT) 0.79
repeat z ← Random z-latent w ← MAPPING(z) wref ← NEUTRALIZE(w) 繰り返す ランダム z-ラテント w > MAPPING(z) の言い回し > NEUTRALIZE(w) 0.58
until CLOSESTDISTANCE(wref , Wprev) > ICT APPEND(Wprev, ref) CLOSESTDISTANCE(wref , Wprev) > ICT APPEND(Wprev, ref) 0.76
end procedure (cid:46) StyleGAN2 mapping 終了手続き (cid:46)stylegan2マッピング 0.68
function NEUTRALIZE(w) w ← w − (w(cid:62)ˆnP) · ˆnP w ← w − (w(cid:62)ˆnI) · ˆnI w ← w − (w(cid:62)ˆn01 + d0 return w end function 関数 NEUTRALIZE(w) w . w − (w(cid:62) . P) · .P w . w − (w(cid:62) .I) · .nI w . w − (w(cid:62) .n01 + d0 return w end function 0.83
01) · ˆn01 01) ・ ・n01 0.78
function CLOSESTDISTANCE(w, Wprev) function CLOSESTDISTANCE(w, Wprev) 0.85
embedding e = EMBEDDING(SYNTHESIS( w)) dists ← [] for all w(cid:48) in Wprev do 埋め込み e = EMBEDDING(SYNTHESIS( w)) dists > [] for all w(cid:48) in Wprev do 0.73
e(cid:48) = EMBEDDING(SYNTHESIS( w(cid:48))) APPEND(dists, COSINEDISTANCE(e, e(cid:48))) e(cid:48) = EMBEDING(SYNTHESIS(w (cid:48))) APPEND(dists, COSINEDISTANCE(e, e(cid:48)) 0.97
end for return MINIMUM(dists) end for return minimum (複数形 end for return minimums) 0.51
end function end + function 0.72
(cid:46) Pose (cid:46) Illumination (cid:46) Expression (cid:46) Pose (cid:46) Illumination (cid:46) Expression 0.80
(cid:46) Compute image and face (cid:46)画像と顔を計算する 0.68
Algorithm 2 Creation of variations アルゴリズム2 バリエーションの作成 0.73
procedure VARIATIONS(wref, nvar) pose var ← LRVAR(wref , ˆnP, dL illum var ← LRVAR(wref , ˆnI, dL expr var ← EXPRVAR(wref ) 手続き VARIATIONS(wref, nvar) pose var . LRVAR(wref , .nP, dL illum var . LRVAR(wref , .nI, dL expr var . EXPRVAR(wref )) 0.71
end procedure P , dR I , dR 終了手続き P, dR I, dR 0.76
P , nvar) I , nvar) P , nvar) I , nvar) 0.85
Left-Right editing function LRVAR(w, ˆn, dL, dR, nvar) variations ← [] D ← MAXIMUM(dL, dR) dists ← LINSPACE(−D, D,nvar) for all d in dists do APPEND(variations, w + d · ˆn) 左傾編集関数 LRVAR(w, >n, dL, dR, nvar) 変分 > [] D > MAXimum(dL, dR) dists > LINSPACE(−D, D, nvar) for all d in dists do APPEND(variations, w + d · .n) 0.77
end for return variations return (複数形 returns) 0.54
end function end + function 0.72
Expression editing function EXPRVAR(w) variations ← [] for j in 1..5 do 1..5 do における j に対する式編集関数 exprvar(w) の変種 0.75
end for end function 終止符 end + function 0.67
APPEND(variations, w + (−w(cid:62)ˆn0j + dj APPEND(variations, w + (-w(cid:62) =n0j + dj 0.83
0j ) · ˆn0j) (a) U - False non-matches 0j) ·n0j) (a)U-偽の非マッチ 0.78
(b) U - False matches Figure 8: Worst matches at FMR@1E-3 with the InceptionResNet v2 system evaluated on the Syn-Multi-PIE U protocol. (b)u-偽の一致 図8: FMR@1E-3 と Syn-Multi-PIE U プロトコルで評価された InceptionResNet v2 システムとの最悪の一致。 0.72
ReferencesGenuinesRe ferencesImpostors 参照genuinesreferencesim postors 0.38
(a) E - False non-matches (a)E-偽の非マッチ 0.80
(b) E - False matches (a) P - False non-matches (b)e-偽の一致 (a)P-偽の非マッチ 0.79
(b) P - False matches Figure 9: Worst matches at FMR@1E-3 with the InceptionResNet v2 system evaluated on the Syn-Multi-PIE E protocol. (b)p-偽の一致 図9: FMR@1E-3 と Syn-Multi-PIE E プロトコルで評価された InceptionResNet v2 システムとの最悪の一致。 0.74
Figure 10: Worst matches at FMR@1E-3 with the Inception-ResNet v2 system evaluated on the Syn-MultiPIE P protocol. 図10: FMR@1E-3 と Syn-MultiPIE P プロトコルで評価された Inception-ResNet v2 システムとの最悪の一致。 0.68
ReferencesGenuinesRe ferencesImpostorsRef erencesGenuinesRefer encesImpostors ReferencesGenuinesRe ferencesImpostorsRef erencesGenuinesRefer encesImpostors 0.05

翻訳にはFugu-Machine Translatorを利用しています。