論文の概要: Multi-Modal Face Anti-Spoofing via Cross-Modal Feature Transitions
- arxiv url: http://arxiv.org/abs/2507.05575v1
- Date: Tue, 08 Jul 2025 01:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.469583
- Title: Multi-Modal Face Anti-Spoofing via Cross-Modal Feature Transitions
- Title(参考訳): クロスモーダル特徴遷移によるマルチモーダル顔アンチスプーフィング
- Authors: Jun-Xiong Chong, Fang-Yu Hsu, Ming-Tsung Hsu, Yi-Ting Lin, Kai-Heng Chien, Chiou-Ting Hsu, Pei-Kai Huang,
- Abstract要約: マルチモーダル・フェイス・アンチ・スプーフィング(英語版)(FAS)は、複数のモーダルから生きた手がかりを抽出することにより、本物の人間の存在を検出することを目的としている。
マルチモーダルFASタスクにおける課題に対処するために,新しいクロスモーダル遷移誘導ネットワーク(CTNet)を提案する。
- 参考スコア(独自算出の注目度): 2.3505792985856813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal face anti-spoofing (FAS) aims to detect genuine human presence by extracting discriminative liveness cues from multiple modalities, such as RGB, infrared (IR), and depth images, to enhance the robustness of biometric authentication systems. However, because data from different modalities are typically captured by various camera sensors and under diverse environmental conditions, multi-modal FAS often exhibits significantly greater distribution discrepancies across training and testing domains compared to single-modal FAS. Furthermore, during the inference stage, multi-modal FAS confronts even greater challenges when one or more modalities are unavailable or inaccessible. In this paper, we propose a novel Cross-modal Transition-guided Network (CTNet) to tackle the challenges in the multi-modal FAS task. Our motivation stems from that, within a single modality, the visual differences between live faces are typically much smaller than those of spoof faces. Additionally, feature transitions across modalities are more consistent for the live class compared to those between live and spoof classes. Upon this insight, we first propose learning consistent cross-modal feature transitions among live samples to construct a generalized feature space. Next, we introduce learning the inconsistent cross-modal feature transitions between live and spoof samples to effectively detect out-of-distribution (OOD) attacks during inference. To further address the issue of missing modalities, we propose learning complementary infrared (IR) and depth features from the RGB modality as auxiliary modalities. Extensive experiments demonstrate that the proposed CTNet outperforms previous two-class multi-modal FAS methods across most protocols.
- Abstract(参考訳): マルチモーダルフェース・アンチ・スプーフィング(FAS)は、生体認証システムの堅牢性を高めるために、RGB、赤外線(IR)、深度画像などの複数のモダリティから識別的生命性手がかりを抽出することにより、本物の人間の存在を検出することを目的としている。
しかし、様々なモダリティのデータは通常、様々なカメラセンサーによってキャプチャされ、多様な環境条件下では、マルチモダリティFASは、単一モダリティFASと比較して、トレーニングやテスト領域間での分布差が著しく大きいことがしばしばある。
さらに、推測段階では、1つ以上のモダリティが利用できない、またはアクセスできない場合、マルチモーダルFASはさらに大きな課題に直面している。
本稿では,マルチモーダルFASタスクにおける課題に対処するために,新しいクロスモーダル遷移誘導ネットワーク(CTNet)を提案する。
私たちのモチベーションは、単一のモダリティの中で、生きた顔の視覚的な違いは、通常、スプーフの顔よりもずっと小さいことです。
さらに、モダリティ間の機能遷移は、ライブクラスとスプーフクラスの間のものよりも、ライブクラスに一貫性がある。
この知見に基づき、我々はまず、実検体間で一貫したクロスモーダルな特徴遷移を学習し、一般化された特徴空間を構築することを提案する。
次に、本研究では、生検とスプーフ検体間の不整合横断的特徴遷移の学習を導入し、推論中にOOD(out-of-distriion)攻撃を効果的に検出する。
欠落したモダリティの問題を更に解決するために、補助モダリティとしてRGBモダリティから学習相補的赤外線(IR)と深度特徴を提案する。
大規模な実験により,提案したCTNetは,従来の2種類のマルチモーダルFAS法よりも優れた性能を示した。
関連論文リスト
- Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文 参考訳(メタデータ) (2024-09-09T14:12:23Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Visual Prompt Flexible-Modal Face Anti-Spoofing [23.58674017653937]
実世界から収集されたマルチモーダル顔データは 様々な画像センサーの モダリティが欠如しているため しばしば不完全です
本稿では, 凍結前基礎モデルを下流のフレキシブル・モダルFASタスクに適応させるために, モーダル関連プロンプトを学習するフレキシブル・モダルFASを提案する。
2つのマルチモーダルFASベンチマークデータセットで実施された実験は、我々のVP-FASフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-07-26T05:06:41Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。
第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。
また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文 参考訳(メタデータ) (2022-02-16T16:55:39Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。