論文の概要: ViTransPAD: Video Transformer using convolution and self-attention for
Face Presentation Attack Detection
- arxiv url: http://arxiv.org/abs/2203.01562v1
- Date: Thu, 3 Mar 2022 08:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-03-05 06:07:46.526322
- Title: ViTransPAD: Video Transformer using convolution and self-attention for
Face Presentation Attack Detection
- Title(参考訳): ViTransPAD:顔提示検出のための畳み込みと自己注意を用いたビデオ変換器
- Authors: Zuheng Ming, Zitong Yu, Musab Al-Ghadi, Muriel Visani, Muhammad
MuzzamilLuqman, Jean-Christophe Burie
- Abstract要約: 顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。
PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリタスクとして問題を定式化している。
本研究では,フレーム内の短距離の局所的細部のみに焦点をあてるだけでなく,フレーム上の長距離依存性をキャプチャできる映像ベースの顔PAD(ViTransPAD)を提案する。
- 参考スコア(独自算出の注目度): 15.70621878093133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face Presentation Attack Detection (PAD) is an important measure to prevent
spoof attacks for face biometric systems. Many works based on Convolution
Neural Networks (CNNs) for face PAD formulate the problem as an image-level
binary classification task without considering the context. Alternatively,
Vision Transformers (ViT) using self-attention to attend the context of an
image become the mainstreams in face PAD. Inspired by ViT, we propose a
Video-based Transformer for face PAD (ViTransPAD) with short/long-range
spatio-temporal attention which can not only focus on local details with short
attention within a frame but also capture long-range dependencies over frames.
Instead of using coarse image patches with single-scale as in ViT, we propose
the Multi-scale Multi-Head Self-Attention (MsMHSA) architecture to accommodate
multi-scale patch partitions of Q, K, V feature maps to the heads of
transformer in a coarse-to-fine manner, which enables to learn a fine-grained
representation to perform pixel-level discrimination for face PAD. Due to lack
inductive biases of convolutions in pure transformers, we also introduce
convolutions to the proposed ViTransPAD to integrate the desirable properties
of CNNs by using convolution patch embedding and convolution projection. The
extensive experiments show the effectiveness of our proposed ViTransPAD with a
preferable accuracy-computation balance, which can serve as a new backbone for
face PAD.
- Abstract(参考訳): 顔の提示攻撃検出(PAD)は,顔の生体認証システムに対するスプーフ攻撃を防ぐ重要な手段である。
PADに対する畳み込みニューラルネットワーク(CNN)に基づく多くの研究は、文脈を考慮せずに画像レベルのバイナリ分類タスクとして問題を定式化する。
あるいは、視覚変換器(ViT)が自己アテンションを用いて画像のコンテキストに到達し、PADのメインストリームとなる。
vitに触発されて,フレーム内の局所的なディテールに注目するだけでなく,フレーム上の長距離の依存関係を捉えることのできる,短距離・長距離の時空間的注意を持つ顔パッド(vitranspad)用ビデオトランスフォーマーを提案する。
マルチスケール・マルチヘッド・セルフアタテンション(MsMHSA)アーキテクチャを用いて,Q,K,Vのマルチスケール・パッチパーティションを粗大な方法でトランスフォーマーの頭部にマップすることで,顔PADの画素レベルの識別を行うための微細な表現を学習することができる。
純粋変圧器における畳み込みの帰納バイアスが欠如しているため,提案したViTransPADに畳み込みを導入し,畳み込みパッチ埋め込みと畳み込みプロジェクションを用いてCNNの望ましい特性を統合する。
提案したViTransPADは,顔PADの新たなバックボーンとして機能し,精度・計算バランスが良好であることを示す。
関連論文リスト
- Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文 参考訳(メタデータ) (2022-09-28T08:57:14Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。