論文の概要: Fast and Interpretable Face Identification for Out-Of-Distribution Data
Using Vision Transformers
- arxiv url: http://arxiv.org/abs/2311.02803v1
- Date: Mon, 6 Nov 2023 00:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:53:02.638087
- Title: Fast and Interpretable Face Identification for Out-Of-Distribution Data
Using Vision Transformers
- Title(参考訳): 視覚トランスフォーマを用いた分散データの高速かつ解釈可能な顔識別
- Authors: Hai Phan, Cindy Le, Vu Le, Yihui He, Anh Totti Nguyen
- Abstract要約: パッチレベルでの2つのイメージをクロスアテンションを用いて比較する2次元視覚変換器(ViT)を提案する。
我々のモデルは、分布外データ上でDeepFace-EMDと同等の精度で動作しますが、推論速度はDeepFace-EMDの2倍以上の速さです。
- 参考スコア(独自算出の注目度): 5.987804054392297
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most face identification approaches employ a Siamese neural network to
compare two images at the image embedding level. Yet, this technique can be
subject to occlusion (e.g. faces with masks or sunglasses) and
out-of-distribution data. DeepFace-EMD (Phan et al. 2022) reaches
state-of-the-art accuracy on out-of-distribution data by first comparing two
images at the image level, and then at the patch level. Yet, its later
patch-wise re-ranking stage admits a large $O(n^3 \log n)$ time complexity (for
$n$ patches in an image) due to the optimal transport optimization. In this
paper, we propose a novel, 2-image Vision Transformers (ViTs) that compares two
images at the patch level using cross-attention. After training on 2M pairs of
images on CASIA Webface (Yi et al. 2014), our model performs at a comparable
accuracy as DeepFace-EMD on out-of-distribution data, yet at an inference speed
more than twice as fast as DeepFace-EMD (Phan et al. 2022). In addition, via a
human study, our model shows promising explainability through the visualization
of cross-attention. We believe our work can inspire more explorations in using
ViTs for face identification.
- Abstract(参考訳): ほとんどの顔識別アプローチでは、イメージ埋め込みレベルで2つの画像を比較するために、サイムズニューラルネットワークを使用している。
しかし、このテクニックは、咬合(例えば、マスクやサングラスのついた顔)や分散データにも適用できる。
DeepFace-EMD (Phan et al. 2022) は、まず2つの画像を画像レベルで比較し、次にパッチレベルで分配データの最先端精度に達する。
しかし、後のパッチワイドのステージでは、最適なトランスポート最適化のため、O(n^3 \log n)$タイムの複雑さ(イメージ内のパッチの$n$)が認められている。
本稿では,パッチレベルでの2つのイメージをクロスアテンションを用いて比較する2イメージビジョントランス (ViT) を提案する。
CASIA Webface (Yi et al. 2014) 上で200万対の画像をトレーニングした後、我々のモデルは分布外データ上でDeepFace-EMDと同等の精度で処理するが、推定速度はDeepFace-EMDの2倍以上である(Phan et al. 2022)。
また,人間による研究を通じて,クロスアテンションの可視化による有望な説明可能性を示す。
私たちの研究は、顔認証にViTを使用することで、より多くの探索を刺激できると考えています。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Vec2Face: Scaling Face Dataset Generation with Loosely Constrained Vectors [19.02273216268032]
Vec2Faceは、サンプルベクターのみを入力として使用する総合モデルである。
Vec2Faceは顔画像再構成によって管理されており、推論に便利に使用できる。
Vec2Faceは、1500万枚の画像を含む3万個のIDを効率的に合成している。
論文 参考訳(メタデータ) (2024-09-04T17:59:51Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Generating 2D and 3D Master Faces for Dictionary Attacks with a
Network-Assisted Latent Space Evolution [68.8204255655161]
マスターフェイス(英: master face)とは、人口の比率の高い顔認証をパスする顔画像である。
2次元および3次元の顔認証モデルに対して,これらの顔の最適化を行う。
3Dでは,2次元スタイルGAN2ジェネレータを用いて顔を生成し,深部3次元顔再構成ネットワークを用いて3次元構造を予測する。
論文 参考訳(メタデータ) (2022-11-25T09:15:38Z) - Multiface: A Dataset for Neural Face Rendering [108.44505415073579]
本研究では,新しいマルチビュー,高解像度のヒューマン・フェイス・データセットであるMultifaceを提案する。
顔のパフォーマンスの高解像度同期映像をキャプチャする大規模なマルチカメラ装置であるMugsyを紹介する。
Multifaceの目的は、学術コミュニティにおける高品質データへのアクセシビリティのギャップを埋め、VRテレプレゼンスの研究を可能にすることである。
論文 参考訳(メタデータ) (2022-07-22T17:55:39Z) - DeepFace-EMD: Re-ranking Using Patch-wise Earth Mover's Distance
Improves Out-Of-Distribution Face Identification [19.20353547123292]
顔認証(FI)はユビキタスであり、法執行機関による多くの高い判断を導いている。
State-of-the-art FIアプローチは、イメージ埋め込み間のコサイン類似性を採って、2つの画像を比較する。
そこで本稿では, 画像パッチの深部空間的特徴に対するEarth Mover's Distanceを用いて, 2つの顔を比較した再分類手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T22:04:53Z) - FaceTuneGAN: Face Autoencoder for Convolutional Expression Transfer
Using Neural Generative Adversarial Networks [0.7043489166804575]
顔の識別と表情を分離して符号化する新しい3次元顔モデル表現であるFaceTuneGANを提案する。
本稿では,2次元領域で使用されている画像と画像の変換ネットワークを3次元顔形状に適応させる手法を提案する。
論文 参考訳(メタデータ) (2021-12-01T14:42:03Z) - One Shot Face Swapping on Megapixels [65.47443090320955]
本稿では,顔面スワッピング(略してMegaFS)における最初のメガピクセルレベル法を提案する。
本手法の成功に対する3つの新しい貢献は,顔の完全な表現,安定したトレーニング,限られたメモリ使用量である。
論文 参考訳(メタデータ) (2021-05-11T10:41:47Z) - Facial Masks and Soft-Biometrics: Leveraging Face Recognition CNNs for
Age and Gender Prediction on Mobile Ocular Images [53.913598771836924]
スマートフォンで撮影した自撮り眼画像を使って年齢や性別を推定します。
ImageNet Challengeの文脈で提案された2つの既存の軽量CNNを適応させる。
一部のネットワークは顔認識のためにさらにトレーニングされており、非常に大規模なトレーニングデータベースが利用可能です。
論文 参考訳(メタデータ) (2021-03-31T01:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。