論文の概要: S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with
Statistical Tokens
- arxiv url: http://arxiv.org/abs/2309.04038v1
- Date: Thu, 7 Sep 2023 22:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:22:53.247659
- Title: S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with
Statistical Tokens
- Title(参考訳): S-Adapter:統計的トークンを用いた顔アンチスプーフィングのための一般化視覚変換器
- Authors: Rizhao Cai, Zitong Yu, Chenqi Kong, Haoliang Li, Changsheng Chen,
Yongjian Hu, Alex Kot
- Abstract要約: Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
- 参考スコア(独自算出の注目度): 47.32696950968665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Anti-Spoofing (FAS) aims to detect malicious attempts to invade a face
recognition system by presenting spoofed faces. State-of-the-art FAS techniques
predominantly rely on deep learning models but their cross-domain
generalization capabilities are often hindered by the domain shift problem,
which arises due to different distributions between training and testing data.
In this study, we develop a generalized FAS method under the Efficient
Parameter Transfer Learning (EPTL) paradigm, where we adapt the pre-trained
Vision Transformer models for the FAS task. During training, the adapter
modules are inserted into the pre-trained ViT model, and the adapters are
updated while other pre-trained parameters remain fixed. We find the
limitations of previous vanilla adapters in that they are based on linear
layers, which lack a spoofing-aware inductive bias and thus restrict the
cross-domain generalization. To address this limitation and achieve
cross-domain generalized FAS, we propose a novel Statistical Adapter
(S-Adapter) that gathers local discriminative and statistical information from
localized token histograms. To further improve the generalization of the
statistical tokens, we propose a novel Token Style Regularization (TSR), which
aims to reduce domain style variance by regularizing Gram matrices extracted
from tokens across different domains. Our experimental results demonstrate that
our proposed S-Adapter and TSR provide significant benefits in both zero-shot
and few-shot cross-domain testing, outperforming state-of-the-art methods on
several benchmark tests. We will release the source code upon acceptance.
- Abstract(参考訳): face anti-spoofing (fas) は、顔を偽装して顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
最先端のfas技術は、主にディープラーニングモデルに依存しているが、そのクロスドメイン一般化能力は、トレーニングとテストデータの違いによるドメインシフト問題によってしばしば妨げられる。
本研究では、EPTL(Efficient Parameter Transfer Learning)パラダイムに基づく一般化されたFAS手法を開発し、FASタスクのための事前学習されたビジョントランスフォーマーモデルを適用する。
トレーニング中、アダプタモジュールはトレーニング済みのViTモデルに挿入され、アダプタは更新され、他のトレーニング済みのパラメータは固定される。
従来のバニラアダプタの制限は、スプーフィング対応誘導バイアスが欠如しており、したがってクロスドメインの一般化を制限する線形層に基づいている。
この制限に対処し、クロスドメイン一般化FASを実現するために、局所的なトークンヒストグラムから局所的な識別および統計情報を収集する新しい統計的適応器(S-Adapter)を提案する。
統計トークンの一般化をさらに高めるために,異なる領域にまたがるトークンから抽出されたグラム行列を正則化することにより,ドメインスタイルの分散を低減しようとする新しいトークンスタイル正則化(tsr)を提案する。
実験結果から,提案するs-adapterとtsrは,ゼロショットおよび少数ショットのクロスドメインテストの両方において,いくつかのベンチマークテストにおいて最先端のメソッドよりも優れたメリットがあることが示された。
受け入れ次第、ソースコードをリリースします。
関連論文リスト
- Enhancing Test Time Adaptation with Few-shot Guidance [35.13317598777832]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Enhancing General Face Forgery Detection via Vision Transformer with
Low-Rank Adaptation [31.780516471483985]
偽造の顔は 偽ニュースや 詐欺 偽造などの セキュリティ上の懸念を訴える
本稿では、視覚変換器(ViT)アーキテクチャに基づく、より一般的な偽顔検出モデルを設計する。
提案手法は, クロスマニピュレーションとクロスデータセット評価の両方において, 最先端検出性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T02:26:04Z) - One-Class Knowledge Distillation for Face Presentation Attack Detection [53.30584138746973]
本稿では,一級ドメイン適応による対面PADのクロスドメイン性能向上のための教師学生フレームワークを提案する。
学生ネットワークは、教師ネットワークを模倣し、ターゲットドメインの真の顔サンプルの類似した表現を学ぶために訓練される。
テストフェーズでは、教師と学生ネットワークの表現の類似度スコアを用いて、真の攻撃と区別する。
論文 参考訳(メタデータ) (2022-05-08T06:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。