論文の概要: Part-based Face Recognition with Vision Transformers
- arxiv url: http://arxiv.org/abs/2212.00057v1
- Date: Wed, 30 Nov 2022 19:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:04:19.046493
- Title: Part-based Face Recognition with Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた部分ベース顔認識
- Authors: Zhonglin Sun, Georgios Tzimiropoulos
- Abstract要約: 我々は、視覚変換器を、fViTと呼ばれる顔認識のための非常に強力なベースラインを訓練するためのアーキテクチャとして採用している。
我々はトランスフォーマー固有の特性を利用して不規則な格子から抽出した情報(視覚トークン)を処理し、顔認識のためのパイプラインを考案する。
- 参考スコア(独自算出の注目度): 43.752688976493765
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Holistic methods using CNNs and margin-based losses have dominated research
on face recognition. In this work, we depart from this setting in two ways: (a)
we employ the Vision Transformer as an architecture for training a very strong
baseline for face recognition, simply called fViT, which already surpasses most
state-of-the-art face recognition methods. (b) Secondly, we capitalize on the
Transformer's inherent property to process information (visual tokens)
extracted from irregular grids to devise a pipeline for face recognition which
is reminiscent of part-based face recognition methods. Our pipeline, called
part fViT, simply comprises a lightweight network to predict the coordinates of
facial landmarks followed by the Vision Transformer operating on patches
extracted from the predicted landmarks, and it is trained end-to-end with no
landmark supervision. By learning to extract discriminative patches, our
part-based Transformer further boosts the accuracy of our Vision Transformer
baseline achieving state-of-the-art accuracy on several face recognition
benchmarks.
- Abstract(参考訳): cnnとマージンベースの損失を用いた総合的な手法は、顔認識の研究を独占している。
この作業では、この設定から2つの方法で出発します。
(a)顔認識の非常に強力なベースライン(単にfvitと呼ばれる)をトレーニングするためのアーキテクチャとしてvision transformerを採用しています。
b) 第二に,トランスフォーマー固有の特性を利用して不規則な格子から抽出した情報(視覚トークン)を処理し,部分ベースの顔認識手法を思い起こさせる顔認識のためのパイプラインを考案する。
われわれのパイプラインはfViTと呼ばれ、単に軽量なネットワークで顔のランドマークの座標を予測し、続いてVision Transformerが予測されたランドマークから抽出されたパッチを操作する。
識別パッチの抽出を学習することにより,複数の顔認証ベンチマークにおいて,視覚トランスフォーマのベースラインの精度をさらに向上させる。
関連論文リスト
- KeyPoint Relative Position Encoding for Face Recognition [15.65725865703615]
Keypoint RPE (KP-RPE) は、画素の重要度が近接によってのみ規定されない原理の拡張である。
コードと事前訓練されたモデルが利用可能である。
論文 参考訳(メタデータ) (2024-03-21T21:56:09Z) - LAFS: Landmark-based Facial Self-supervised Learning for Face
Recognition [37.4550614524874]
我々は、効果的な顔認識モデルの訓練に適応できる顔表現の学習に焦点をあてる。
本研究では,自己教師付き事前学習による未ラベル顔画像の学習戦略について検討する。
提案手法は,複数の顔認識ベンチマークにおける最先端技術よりも大幅に向上する。
論文 参考訳(メタデータ) (2024-03-13T01:07:55Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - Enhancing Landmark Detection in Cluttered Real-World Scenarios with
Vision Transformers [2.900522306460408]
本研究は,視覚的位置認識におけるランドマーク検出の進歩に寄与する。
これは、現実のシナリオを散らかすことによって引き起こされる課題を克服するために、ビジョントランスフォーマーを活用する可能性を示している。
論文 参考訳(メタデータ) (2023-08-25T21:01:01Z) - Precise Facial Landmark Detection by Reference Heatmap Transformer [52.417964103227696]
より正確に顔のランドマークを検出するための参照ヒートマップ変換器(RHT)を提案する。
評価実験の結果,提案手法は文献における最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-14T12:26:48Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z) - DeepFake Detection Based on the Discrepancy Between the Face and its
Context [94.47879216590813]
単一画像における顔のスワップやその他のアイデンティティ操作を検出する手法を提案する。
提案手法は, (i) 厳密なセマンティックセグメンテーションによって境界付けられた顔領域を考慮した顔識別ネットワークと, (ii) 顔コンテキストを考慮したコンテキスト認識ネットワークの2つのネットワークを含む。
本稿では,2つのネットワークからの認識信号を用いて,そのような不一致を検出する手法について述べる。
提案手法は,FaceForensics++,Celeb-DF-v2,DFDCベンチマークを用いて顔検出を行い,未知の手法で生成した偽物の検出を一般化する。
論文 参考訳(メタデータ) (2020-08-27T17:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。