論文の概要: S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with
Statistical Tokens
- arxiv url: http://arxiv.org/abs/2309.04038v1
- Date: Thu, 7 Sep 2023 22:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:22:53.247659
- Title: S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with
Statistical Tokens
- Title(参考訳): S-Adapter:統計的トークンを用いた顔アンチスプーフィングのための一般化視覚変換器
- Authors: Rizhao Cai, Zitong Yu, Chenqi Kong, Haoliang Li, Changsheng Chen,
Yongjian Hu, Alex Kot
- Abstract要約: Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
- 参考スコア(独自算出の注目度): 47.32696950968665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Anti-Spoofing (FAS) aims to detect malicious attempts to invade a face
recognition system by presenting spoofed faces. State-of-the-art FAS techniques
predominantly rely on deep learning models but their cross-domain
generalization capabilities are often hindered by the domain shift problem,
which arises due to different distributions between training and testing data.
In this study, we develop a generalized FAS method under the Efficient
Parameter Transfer Learning (EPTL) paradigm, where we adapt the pre-trained
Vision Transformer models for the FAS task. During training, the adapter
modules are inserted into the pre-trained ViT model, and the adapters are
updated while other pre-trained parameters remain fixed. We find the
limitations of previous vanilla adapters in that they are based on linear
layers, which lack a spoofing-aware inductive bias and thus restrict the
cross-domain generalization. To address this limitation and achieve
cross-domain generalized FAS, we propose a novel Statistical Adapter
(S-Adapter) that gathers local discriminative and statistical information from
localized token histograms. To further improve the generalization of the
statistical tokens, we propose a novel Token Style Regularization (TSR), which
aims to reduce domain style variance by regularizing Gram matrices extracted
from tokens across different domains. Our experimental results demonstrate that
our proposed S-Adapter and TSR provide significant benefits in both zero-shot
and few-shot cross-domain testing, outperforming state-of-the-art methods on
several benchmark tests. We will release the source code upon acceptance.
- Abstract(参考訳): face anti-spoofing (fas) は、顔を偽装して顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
最先端のfas技術は、主にディープラーニングモデルに依存しているが、そのクロスドメイン一般化能力は、トレーニングとテストデータの違いによるドメインシフト問題によってしばしば妨げられる。
本研究では、EPTL(Efficient Parameter Transfer Learning)パラダイムに基づく一般化されたFAS手法を開発し、FASタスクのための事前学習されたビジョントランスフォーマーモデルを適用する。
トレーニング中、アダプタモジュールはトレーニング済みのViTモデルに挿入され、アダプタは更新され、他のトレーニング済みのパラメータは固定される。
従来のバニラアダプタの制限は、スプーフィング対応誘導バイアスが欠如しており、したがってクロスドメインの一般化を制限する線形層に基づいている。
この制限に対処し、クロスドメイン一般化FASを実現するために、局所的なトークンヒストグラムから局所的な識別および統計情報を収集する新しい統計的適応器(S-Adapter)を提案する。
統計トークンの一般化をさらに高めるために,異なる領域にまたがるトークンから抽出されたグラム行列を正則化することにより,ドメインスタイルの分散を低減しようとする新しいトークンスタイル正則化(tsr)を提案する。
実験結果から,提案するs-adapterとtsrは,ゼロショットおよび少数ショットのクロスドメインテストの両方において,いくつかのベンチマークテストにおいて最先端のメソッドよりも優れたメリットがあることが示された。
受け入れ次第、ソースコードをリリースします。
関連論文リスト
- FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time
Adaptation [49.84571101331491]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、CTTAタスクを提案する。
我々はCTTAのためのビジュアルドメインアダプタ(ViDA)を提案し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Enhancing General Face Forgery Detection via Vision Transformer with
Low-Rank Adaptation [31.780516471483985]
偽造の顔は 偽ニュースや 詐欺 偽造などの セキュリティ上の懸念を訴える
本稿では、視覚変換器(ViT)アーキテクチャに基づく、より一般的な偽顔検出モデルを設計する。
提案手法は, クロスマニピュレーションとクロスデータセット評価の両方において, 最先端検出性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T02:26:04Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - One-Class Knowledge Distillation for Face Presentation Attack Detection [53.30584138746973]
本稿では,一級ドメイン適応による対面PADのクロスドメイン性能向上のための教師学生フレームワークを提案する。
学生ネットワークは、教師ネットワークを模倣し、ターゲットドメインの真の顔サンプルの類似した表現を学ぶために訓練される。
テストフェーズでは、教師と学生ネットワークの表現の類似度スコアを用いて、真の攻撃と区別する。
論文 参考訳(メタデータ) (2022-05-08T06:20:59Z) - Federated Test-Time Adaptive Face Presentation Attack Detection with
Dual-Phase Privacy Preservation [100.69458267888962]
顔提示攻撃検出(fPAD)は、現代の顔認識パイプラインにおいて重要な役割を果たす。
法的およびプライバシー上の問題により、トレーニングデータ(実際の顔画像と偽画像)は、異なるデータソース間で直接共有することはできない。
本稿では,二相プライバシー保護フレームワークを用いたフェデレーションテスト時間適応顔提示検出を提案する。
論文 参考訳(メタデータ) (2021-10-25T02:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。