論文の概要: Self-Supervised Face Presentation Attack Detection with Dynamic
Grayscale Snippets
- arxiv url: http://arxiv.org/abs/2208.13070v1
- Date: Sat, 27 Aug 2022 18:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:50:58.077142
- Title: Self-Supervised Face Presentation Attack Detection with Dynamic
Grayscale Snippets
- Title(参考訳): 動的グレースケールスニペットを用いた自己教師付き顔提示アタック検出
- Authors: Usman Muhammad and Mourad Oussalah
- Abstract要約: 顔提示攻撃検出(PAD)は、顔認識システムにおいて、提示攻撃に対して重要な役割を果たす。
本稿では,ラベル付きデータのコストのかかる収集を避けるために,動き予測による自己教師付き映像表現学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.342658286826597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face presentation attack detection (PAD) plays an important role in defending
face recognition systems against presentation attacks. The success of PAD
largely relies on supervised learning that requires a huge number of labeled
data, which is especially challenging for videos and often requires expert
knowledge. To avoid the costly collection of labeled data, this paper presents
a novel method for self-supervised video representation learning via motion
prediction. To achieve this, we exploit the temporal consistency based on three
RGB frames which are acquired at three different times in the video sequence.
The obtained frames are then transformed into grayscale images where each image
is specified to three different channels such as R(red), G(green), and B(blue)
to form a dynamic grayscale snippet (DGS). Motivated by this, the labels are
automatically generated to increase the temporal diversity based on DGS by
using the different temporal lengths of the videos, which prove to be very
helpful for the downstream task. Benefiting from the self-supervised nature of
our method, we report the results that outperform existing methods on four
public benchmark datasets, namely Replay-Attack, MSU-MFSD, CASIA-FASD, and
OULU-NPU. Explainability analysis has been carried out through LIME and
Grad-CAM techniques to visualize the most important features used in the DGS.
- Abstract(参考訳): 顔提示攻撃検出(pad)は、顔認識システムをプレゼンテーション攻撃から守る上で重要な役割を担っている。
PADの成功は主に、大量のラベル付きデータを必要とする教師あり学習に依存している。
本稿では,ラベル付きデータのコストのかかる収集を避けるために,動き予測による自己教師付き映像表現学習手法を提案する。
そこで本研究では,3つのRGBフレームの時間的一貫性をビデオシーケンスにおいて3つの異なるタイミングで取得する手法を提案する。
次に得られたフレームを、R(red)、G(green)、B(blue)の3つの異なるチャネルに指定してダイナミックグレースケールスニペット(DGS)を形成するグレースケール画像に変換する。
これにより、ビデオの時間長が異なるため、dgsに基づく時間的多様性を高めるためにラベルが自動生成され、下流タスクに非常に有用であることが証明される。
提案手法の自己監督性から,Replay-Attack, MSU-MFSD, CASIA-FASD, OULU-NPUの4つの公開ベンチマークデータセットにおいて,既存の手法よりも優れた結果が得られた。
LIMEおよびGrad-CAM技術を用いてDGSでもっとも重要な特徴を可視化する説明可能性解析を行った。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Deep Ensemble Learning with Frame Skipping for Face Anti-Spoofing [5.543184872682789]
顔提示攻撃 (PA) は生体認証システムに重大な脅威をもたらす。
連続するビデオフレームにおける顔の動きを解析するいくつかのビデオベース手法が文献で紹介されている。
本稿では,顔のアンチスプーフ処理を動作予測問題として言い換え,フレームスキッピング機構を備えた深層アンサンブル学習モデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T08:50:29Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Learning from Temporal Gradient for Semi-supervised Action Recognition [15.45239134477737]
より注意的な特徴抽出のための追加のモダリティとして時間勾配を導入する。
提案手法は,3つのビデオ行動認識ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-25T20:30:30Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。