論文の概要: Benchmarking Vision Foundation Models for Domain-Generalizable Face Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2604.19196v1
- Date: Tue, 21 Apr 2026 08:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.67821
- Title: Benchmarking Vision Foundation Models for Domain-Generalizable Face Anti-Spoofing
- Title(参考訳): ドメイン一般化型顔アンチスプーフィングのためのベンチマークビジョン基礎モデル
- Authors: Mika Feng, Pierre Gallin-Martel, Koichi Ito, Takafumi Aoki,
- Abstract要約: Face Anti-Spoofing (FAS) は、目に見えない環境にまたがる堅牢なドメインの一般化を必要とするため、依然として困難である。
本稿では、FASの高効率で堅牢なベースラインを確立するために、視覚のみの基礎モデルの可能性を再考する。
包括的分析により、自己監督型視覚モデル、特にDINOv2 with Registersは、注意要素を著しく抑制し、重要できめ細かなスプーフィングキューを捉えていることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face Anti-Spoofing (FAS) remains challenging due to the requirement for robust domain generalization across unseen environments. While recent trends leverage Vision-Language Models (VLMs) for semantic supervision, these multimodal approaches often demand prohibitive computational resources and exhibit high inference latency. Furthermore, their efficacy is inherently limited by the quality of the underlying visual features. This paper revisits the potential of vision-only foundation models to establish a highly efficient and robust baseline for FAS. We conduct a systematic benchmarking of 15 pre-trained models, such as supervised CNNs, supervised ViTs, and self-supervised ViTs, under severe cross-domain scenarios including the MICO and Limited Source Domains (LSD) protocols. Our comprehensive analysis reveals that self-supervised vision models, particularly DINOv2 with Registers, significantly suppress attention artifacts and capture critical, fine-grained spoofing cues. Combined with Face Anti-Spoofing Data Augmentation (FAS-Aug), Patch-wise Data Augmentation (PDA) and Attention-weighted Patch Loss (APL), our proposed vision-only baseline achieves state-of-the-art performance in the MICO protocol. This baseline outperforms existing methods under the data-constrained LSD protocol while maintaining superior computational efficiency. This work provides a definitive vision-only baseline for FAS, demonstrating that optimized self-supervised vision transformers can serve as a backbone for both vision-only and future multimodal FAS systems. The project page is available at: https://gsisaoki.github.io/FAS-VFMbenchmark-CVPRW2026/ .
- Abstract(参考訳): Face Anti-Spoofing (FAS) は、目に見えない環境にまたがる堅牢なドメインの一般化を必要とするため、依然として困難である。
近年の傾向は、視覚言語モデル(VLM)を意味的管理に活用しているが、これらのマルチモーダルアプローチは、しばしば禁止された計算資源を必要とし、高い推論遅延を示す。
さらに、その効果は根底にある視覚的特徴の品質によって本質的に制限される。
本稿では、FASの高効率で堅牢なベースラインを確立するために、視覚のみの基礎モデルの可能性を再考する。
我々は、MICOやLSD(Limited Source Domains)プロトコルなどの厳しいクロスドメインシナリオの下で、教師付きCNN、教師付きVT、自己教師付きVTなど15の事前訓練済みモデルの体系的なベンチマークを行う。
包括的分析により、自己監督型視覚モデル、特にDINOv2 with Registersは、注意要素を著しく抑制し、重要できめ細かなスプーフィングキューを捉えていることが明らかとなった。
Face Anti-Spoofing Data Augmentation (FAS-Aug), Patch-wise Data Augmentation (PDA), Attention-weighted Patch Loss (APL)と組み合わせることで,MICOプロトコルの最先端性能を実現する。
このベースラインは、データ制約付きLSDプロトコルの下で既存の手法よりも優れた計算効率を維持しながら性能を向上する。
この研究は、FASのための決定的なビジョンのみのベースラインを提供し、最適化された自己監督型ビジョントランスフォーマーが、視覚のみと将来のマルチモーダルFASシステムのバックボーンとして機能することを実証した。
プロジェクトページは以下の通りである。 https://gsisaoki.github.io/FAS-VFMbenchmark-CVPRW2026/
関連論文リスト
- SMFormer: Empowering Self-supervised Stereo Matching via Foundation Models and Data Augmentation [55.67206878777881]
本稿では、VFM(Vision Foundation Model)とデータ拡張によって導かれる、より信頼性の高いセルフスーパービジョンを統合するフレームワークであるSMFormerを提案する。
SMFormerは、自己教師付きメソッド間での最先端(SOTA)のパフォーマンスを達成し、教師付きメソッドと同等に競合する。
論文 参考訳(メタデータ) (2026-04-11T13:56:41Z) - Visual prompting reimagined: The power of the Activation Prompts [72.85146015928626]
本稿では,入力レベルのVPの範囲を広げる,アクティベーションプロンプト(AP)の概念を導入する。
APは畳み込みニューラルネットワークと視覚変換器の正規化チューニングと密接に関連している。
畳み込みニューラルネットワークと視覚変換器の正規化チューニングとAPは密接に関連していることを示す。
論文 参考訳(メタデータ) (2026-04-07T20:28:24Z) - Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language Models [65.4947731385794]
基礎画像中心モデルであるInsight-Vから進化した統合多エージェント視覚推論フレームワークを提案する。
空間的時間的推論を強化し、評価ロバスト性を向上させる2つの新しいアルゴリズムST-GRPOとJ-GRPOを導入する。
LLaVA-NeXTやQwen2.5-VLといったベースモデルの実験は、挑戦的な画像とビデオの推論ベンチマーク間で大きなパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2026-03-18T15:28:07Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [69.72249695674665]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Towards Data-Centric Face Anti-Spoofing: Improving Cross-domain Generalization via Physics-based Data Synthesis [64.46312434121455]
Face Anti-Spoofing (FAS) 研究は、トレーニングデータとテストデータの間にドメインギャップがあるクロスドメイン問題によって難題となっている。
本研究では,タスク固有のFASデータ拡張(FAS-Aug)を提案する。
また,特定の種類のアーティファクトをモデルが依存しないようにし,一般化性能を向上させるために,SARE(Spowing Attack Risk Equalization)を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:45:18Z) - A Closer Look at Geometric Temporal Dynamics for Face Anti-Spoofing [13.725319422213623]
顔認識システムにはFAS(face anti-spoofing)が不可欠である。
本稿では,通常動作と異常動作を区別するGeometry-Aware Interaction Network (GAIN)を提案する。
提案手法は,標準内部およびクロスデータセット評価における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-25T18:59:52Z) - EnfoMax: Domain Entropy and Mutual Information Maximization for Domain
Generalized Face Anti-spoofing [0.0]
Face Anti-Spoofing (FAS) 法はドメイン内の設定でよく機能する。
ドメイン一般化(DG)法はFASにおいて注目されている。
本稿では,情報理論を用いてドメイン間FASタスクを解析するEnfoMaxフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-17T03:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。