論文の概要: Face Presentation Attack Detection via Content-Adaptive Spatial Operators
- arxiv url: http://arxiv.org/abs/2602.18965v1
- Date: Sat, 21 Feb 2026 22:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.422456
- Title: Face Presentation Attack Detection via Content-Adaptive Spatial Operators
- Title(参考訳): コンテンツ適応型空間演算子による顔提示検出
- Authors: Shujaat Khan,
- Abstract要約: 本稿では,RGBのみの単一フレームモデルを提案する。
CaSO-PADは軽量であり(3.6Mパラメータ; 0.64 GFLOPs at $256times256$)、標準的なバイナリクロスエントロピーの目的を用いてエンドツーエンドに訓練されている。
- 参考スコア(独自算出の注目度): 3.502729154227436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face presentation attack detection (FacePAD) is critical for securing facial authentication against print, replay, and mask-based spoofing. This paper proposes CASO-PAD, an RGB-only, single-frame model that enhances MobileNetV3 with content-adaptive spatial operators (involution) to better capture localized spoof cues. Unlike spatially shared convolution kernels, the proposed operator generates location-specific, channel-shared kernels conditioned on the input, improving spatial selectivity with minimal overhead. CASO-PAD remains lightweight (3.6M parameters; 0.64 GFLOPs at $256\times256$) and is trained end-to-end using a standard binary cross-entropy objective. Extensive experiments on Replay-Attack, Replay-Mobile, ROSE-Youtu, and OULU-NPU demonstrate strong performance, achieving 100/100/98.9/99.7\% test accuracy, AUC of 1.00/1.00/0.9995/0.9999, and HTER of 0.00/0.00/0.82/0.44\%, respectively. On the large-scale SiW-Mv2 Protocol-1 benchmark, CASO-PAD further attains 95.45\% accuracy with 3.11\% HTER and 3.13\% EER, indicating improved robustness under diverse real-world attacks. Ablation studies show that placing the adaptive operator near the network head and using moderate group sharing yields the best accuracy--efficiency balance. Overall, CASO-PAD provides a practical pathway for robust, on-device FacePAD with mobile-class compute and without auxiliary sensors or temporal stacks.
- Abstract(参考訳): 顔提示攻撃検出(FacePAD)は、印刷、リプレイ、マスクベースの偽造に対する顔認証の確保に重要である。
本稿では,RGBのみの単一フレームモデルであるCASO-PADを提案する。
空間的に共有される畳み込みカーネルとは異なり、提案演算子は入力に条件付き位置特異的なチャネル共有カーネルを生成し、最小限のオーバーヘッドで空間選択性を向上させる。
CASO-PADは軽量であり(3.6Mパラメータ; 0.64 GFLOPs at $256\times256$)、標準的なバイナリクロスエントロピーの目的を用いてエンドツーエンドに訓練されている。
Replay-Attack、Replay-Mobile、ROSE-Youtu、OULU-NPUは100/100/98.9/99.7\%のテスト精度、AUCは1.00/1.00/0.9995/0.9999、HTERは0.00/0.00/0.82/0.44\%を達成した。
大規模なSiW-Mv2 Protocol-1ベンチマークでは、CASO-PADはさらに95.45\%の精度を3.11\% HTERと3.13\% EERで達成し、様々な現実世界の攻撃による堅牢性の向上を示している。
アブレーション研究では、適応演算子をネットワークヘッドの近くに配置し、適度なグループ共有を用いることで、最良の精度と効率のバランスが得られることが示されている。
全体として、CASO-PADは、モバイルクラスの計算と補助センサーや時間スタックなしで、堅牢でオンデバイスなFacePADを実現するための実用的な経路を提供する。
関連論文リスト
- SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。
提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。
2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-02-11T03:21:25Z) - A Multi-Modal Approach for Face Anti-Spoofing in Non-Calibrated Systems using Disparity Maps [0.6144680854063939]
顔認識技術は、顔の偽造攻撃に対して脆弱である。
ステレオ深度カメラはこのような攻撃を効果的に検出できるが、その高いコストで採用が制限される。
本稿では,顔の特徴を利用して異質情報を導き出すことにより,この課題を克服する手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T15:29:51Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - EResFD: Rediscovery of the Effectiveness of Standard Convolution for
Lightweight Face Detection [13.357235715178584]
顔検出のための軽量バックボーンアーキテクチャとして,標準的な畳み込みブロックの有効性を再検討する。
チャネル切断された標準畳み込み層は精度と推論速度を向上できることを示す。
提案する検出器EResFDは,CPU上でのVGA画像推測に37.7msしか要しないWIDER FACE Hardサブセット上で80.4%のmAPを得た。
論文 参考訳(メタデータ) (2022-04-04T02:30:43Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - SqueezeFacePoseNet: Lightweight Face Verification Across Different Poses for Mobile Platforms [44.78440647722169]
顔認識技術は、モバイルデバイスでカメラが利用できることを考えると、信頼性が高く堅牢なユーザー認証を提供することができる。
ディープ畳み込みニューラルネットワークは、多くの正確な顔認証アーキテクチャをもたらすが、その典型的なサイズ(数百メガバイト)は、ダウンロード可能なモバイルアプリケーションに組み込むことができない。
我々は,より大規模なモデルと比較して,十分な精度で動作可能な数メガバイトの軽量な顔認識ネットワークを開発した。
論文 参考訳(メタデータ) (2020-07-16T19:02:38Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。