論文の概要: Multi-Modal Face Anti-Spoofing via Cross-Modal Feature Transitions
- arxiv url: http://arxiv.org/abs/2507.05575v1
- Date: Tue, 08 Jul 2025 01:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.469583
- Title: Multi-Modal Face Anti-Spoofing via Cross-Modal Feature Transitions
- Title(参考訳): クロスモーダル特徴遷移によるマルチモーダル顔アンチスプーフィング
- Authors: Jun-Xiong Chong, Fang-Yu Hsu, Ming-Tsung Hsu, Yi-Ting Lin, Kai-Heng Chien, Chiou-Ting Hsu, Pei-Kai Huang,
- Abstract要約: マルチモーダル・フェイス・アンチ・スプーフィング(英語版)(FAS)は、複数のモーダルから生きた手がかりを抽出することにより、本物の人間の存在を検出することを目的としている。
マルチモーダルFASタスクにおける課題に対処するために,新しいクロスモーダル遷移誘導ネットワーク(CTNet)を提案する。
- 参考スコア(独自算出の注目度): 2.3505792985856813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal face anti-spoofing (FAS) aims to detect genuine human presence by extracting discriminative liveness cues from multiple modalities, such as RGB, infrared (IR), and depth images, to enhance the robustness of biometric authentication systems. However, because data from different modalities are typically captured by various camera sensors and under diverse environmental conditions, multi-modal FAS often exhibits significantly greater distribution discrepancies across training and testing domains compared to single-modal FAS. Furthermore, during the inference stage, multi-modal FAS confronts even greater challenges when one or more modalities are unavailable or inaccessible. In this paper, we propose a novel Cross-modal Transition-guided Network (CTNet) to tackle the challenges in the multi-modal FAS task. Our motivation stems from that, within a single modality, the visual differences between live faces are typically much smaller than those of spoof faces. Additionally, feature transitions across modalities are more consistent for the live class compared to those between live and spoof classes. Upon this insight, we first propose learning consistent cross-modal feature transitions among live samples to construct a generalized feature space. Next, we introduce learning the inconsistent cross-modal feature transitions between live and spoof samples to effectively detect out-of-distribution (OOD) attacks during inference. To further address the issue of missing modalities, we propose learning complementary infrared (IR) and depth features from the RGB modality as auxiliary modalities. Extensive experiments demonstrate that the proposed CTNet outperforms previous two-class multi-modal FAS methods across most protocols.
- Abstract(参考訳): マルチモーダルフェース・アンチ・スプーフィング(FAS)は、生体認証システムの堅牢性を高めるために、RGB、赤外線(IR)、深度画像などの複数のモダリティから識別的生命性手がかりを抽出することにより、本物の人間の存在を検出することを目的としている。
しかし、様々なモダリティのデータは通常、様々なカメラセンサーによってキャプチャされ、多様な環境条件下では、マルチモダリティFASは、単一モダリティFASと比較して、トレーニングやテスト領域間での分布差が著しく大きいことがしばしばある。
さらに、推測段階では、1つ以上のモダリティが利用できない、またはアクセスできない場合、マルチモーダルFASはさらに大きな課題に直面している。
本稿では,マルチモーダルFASタスクにおける課題に対処するために,新しいクロスモーダル遷移誘導ネットワーク(CTNet)を提案する。
私たちのモチベーションは、単一のモダリティの中で、生きた顔の視覚的な違いは、通常、スプーフの顔よりもずっと小さいことです。
さらに、モダリティ間の機能遷移は、ライブクラスとスプーフクラスの間のものよりも、ライブクラスに一貫性がある。
この知見に基づき、我々はまず、実検体間で一貫したクロスモーダルな特徴遷移を学習し、一般化された特徴空間を構築することを提案する。
次に、本研究では、生検とスプーフ検体間の不整合横断的特徴遷移の学習を導入し、推論中にOOD(out-of-distriion)攻撃を効果的に検出する。
欠落したモダリティの問題を更に解決するために、補助モダリティとしてRGBモダリティから学習相補的赤外線(IR)と深度特徴を提案する。
大規模な実験により,提案したCTNetは,従来の2種類のマルチモーダルFAS法よりも優れた性能を示した。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。