論文の概要: S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens
- arxiv url: http://arxiv.org/abs/2309.04038v2
- Date: Wed, 19 Jun 2024 08:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:47:03.143505
- Title: S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens
- Title(参考訳): S-Adapter: 統計的トークンを用いた顔アンチスプーフィングのための一般化型視覚変換器
- Authors: Rizhao Cai, Zitong Yu, Chenqi Kong, Haoliang Li, Changsheng Chen, Yongjian Hu, Alex Kot,
- Abstract要約: Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
- 参考スコア(独自算出の注目度): 45.06704981913823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Anti-Spoofing (FAS) aims to detect malicious attempts to invade a face recognition system by presenting spoofed faces. State-of-the-art FAS techniques predominantly rely on deep learning models but their cross-domain generalization capabilities are often hindered by the domain shift problem, which arises due to different distributions between training and testing data. In this study, we develop a generalized FAS method under the Efficient Parameter Transfer Learning (EPTL) paradigm, where we adapt the pre-trained Vision Transformer models for the FAS task. During training, the adapter modules are inserted into the pre-trained ViT model, and the adapters are updated while other pre-trained parameters remain fixed. We find the limitations of previous vanilla adapters in that they are based on linear layers, which lack a spoofing-aware inductive bias and thus restrict the cross-domain generalization. To address this limitation and achieve cross-domain generalized FAS, we propose a novel Statistical Adapter (S-Adapter) that gathers local discriminative and statistical information from localized token histograms. To further improve the generalization of the statistical tokens, we propose a novel Token Style Regularization (TSR), which aims to reduce domain style variance by regularizing Gram matrices extracted from tokens across different domains. Our experimental results demonstrate that our proposed S-Adapter and TSR provide significant benefits in both zero-shot and few-shot cross-domain testing, outperforming state-of-the-art methods on several benchmark tests. We will release the source code upon acceptance.
- Abstract(参考訳): Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
最先端のFAS技術は、主にディープラーニングモデルに依存しているが、そのクロスドメインの一般化機能は、トレーニングデータとテストデータの間に異なる分布があるため、ドメインシフトの問題によってしばしば妨げられる。
本研究では、EPTL(Efficient Parameter Transfer Learning)パラダイムに基づく一般化されたFAS手法を開発し、FASタスクのための事前学習されたビジョントランスフォーマーモデルを適用する。
トレーニング中、アダプタモジュールはトレーニング済みのViTモデルに挿入され、アダプタは更新され、他のトレーニング済みのパラメータは固定される。
従来のバニラアダプタの制限は、スプーフィング対応誘導バイアスが欠如しており、したがってクロスドメインの一般化が制限されている線形層に基づいている点にある。
この制限に対処し、クロスドメイン一般化FASを実現するために、局所的なトークンヒストグラムから局所的な識別および統計情報を収集する新しい統計的適応器(S-Adapter)を提案する。
統計トークンの一般化をさらに進めるために,異なる領域にまたがるトークンから抽出したグラム行列を正規化することにより,ドメインスタイルの分散を低減することを目的とした,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
私たちは受け入れに応じてソースコードをリリースします。
関連論文リスト
- MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Enhancing General Face Forgery Detection via Vision Transformer with
Low-Rank Adaptation [31.780516471483985]
偽造の顔は 偽ニュースや 詐欺 偽造などの セキュリティ上の懸念を訴える
本稿では、視覚変換器(ViT)アーキテクチャに基づく、より一般的な偽顔検出モデルを設計する。
提案手法は, クロスマニピュレーションとクロスデータセット評価の両方において, 最先端検出性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T02:26:04Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - One-Class Knowledge Distillation for Face Presentation Attack Detection [53.30584138746973]
本稿では,一級ドメイン適応による対面PADのクロスドメイン性能向上のための教師学生フレームワークを提案する。
学生ネットワークは、教師ネットワークを模倣し、ターゲットドメインの真の顔サンプルの類似した表現を学ぶために訓練される。
テストフェーズでは、教師と学生ネットワークの表現の類似度スコアを用いて、真の攻撃と区別する。
論文 参考訳(メタデータ) (2022-05-08T06:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。