論文の概要: DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing
- arxiv url: http://arxiv.org/abs/2503.00429v1
- Date: Sat, 01 Mar 2025 10:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:10.518423
- Title: DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing
- Title(参考訳): DADM: 対面アンチ・スプーフィングのためのドメインの二重アライメントとモダリティ
- Authors: Jingyi Yang, Xun Lin, Zitong Yu, Liepiao Zhang, Xin Liu, Hui Li, Xiaochen Yuan, Xiaochun Cao,
- Abstract要約: マルチモーダル・フェイス・アンチ・スプーフィング (FAS) が顕著な研究対象となっている。
相互情報に基づくモダリティ間のアライメントモジュールを提案する。
サブドメイン超平面とモダリティ角マージンの両方を整列する双対アライメント最適化法を用いる。
- 参考スコア(独自算出の注目度): 58.62312400472865
- License:
- Abstract: With the availability of diverse sensor modalities (i.e., RGB, Depth, Infrared) and the success of multi-modal learning, multi-modal face anti-spoofing (FAS) has emerged as a prominent research focus. The intuition behind it is that leveraging multiple modalities can uncover more intrinsic spoofing traces. However, this approach presents more risk of misalignment. We identify two main types of misalignment: (1) \textbf{Intra-domain modality misalignment}, where the importance of each modality varies across different attacks. For instance, certain modalities (e.g., Depth) may be non-defensive against specific attacks (e.g., 3D mask), indicating that each modality has unique strengths and weaknesses in countering particular attacks. Consequently, simple fusion strategies may fall short. (2) \textbf{Inter-domain modality misalignment}, where the introduction of additional modalities exacerbates domain shifts, potentially overshadowing the benefits of complementary fusion. To tackle (1), we propose a alignment module between modalities based on mutual information, which adaptively enhances favorable modalities while suppressing unfavorable ones. To address (2), we employ a dual alignment optimization method that aligns both sub-domain hyperplanes and modality angle margins, thereby mitigating domain gaps. Our method, dubbed \textbf{D}ual \textbf{A}lignment of \textbf{D}omain and \textbf{M}odality (DADM), achieves state-of-the-art performance in extensive experiments across four challenging protocols demonstrating its robustness in multi-modal domain generalization scenarios. The codes will be released soon.
- Abstract(参考訳): 多様なセンサ・モダリティ(RGB、ディープス、赤外線)が利用可能となり、マルチモーダル・ラーニングの成功により、マルチモーダル・フェイス・アンチ・スプーフィング(FAS)が顕著な研究対象となった。
その背景にある直感は、複数のモダリティを活用することで、より本質的なスプーリングトレースを発見できるということである。
しかし、このアプローチは不適応のリスクを増大させる。
ここでは,(1) <textbf{Intra- domain modality misalignment} の2つの型を同定する。
例えば、特定のモダリティ(例えば、Depth)は特定の攻撃(例えば、3Dマスク)に対して非防御的であり、それぞれのモダリティが特定の攻撃に対抗するために独自の強さと弱点を持っていることを示す。
その結果、単純な核融合戦略が不足する可能性がある。
2) \textbf{Inter- domain modality misalignment} ここでは、追加のモダリティの導入がドメインシフトを悪化させ、補体融合の利点を覆す可能性がある。
1) に対処するために, 相互情報に基づくモダリティ間のアライメントモジュールを提案し, 好ましくないモダリティを抑えつつ, 適応的にモダリティを向上する。
2) に対処するために、サブドメイン超平面とモダリティアングルマージンの両方を整列する双対アライメント最適化法を用いて、ドメインギャップを緩和する。
提案手法は, マルチモーダル領域の一般化シナリオにおいて, その堅牢性を示す4つの挑戦的プロトコルにまたがる実験において, 最先端の性能を実現する。
コードも間もなく公開される予定だ。
関連論文リスト
- Aligning First, Then Fusing: A Novel Weakly Supervised Multimodal Violence Detection Method [11.01048485795428]
そこで我々は,新たな暴力検出フレームワークを提案する。
一助多目的学習(unimodal multiple-instance learning)は、一助多目的学習(unimodal semantic features)、多モーダルアライメント(multimodal alignment)、多モーダル融合(multimodal fusion)、最終検出(final detection)からなる。
ベンチマークデータセットによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-01-13T17:14:25Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Suppress and Rebalance: Towards Generalized Multi-Modal Face
Anti-Spoofing [26.901402236963374]
Face Anti-Spoofing (FAS) は、顔認証システムのプレゼンテーション攻撃に対する保護に不可欠である。
多くのマルチモーダルなFASアプローチが出現しているが、見当たらない攻撃や展開条件を一般化する上での課題に直面している。
論文 参考訳(メタデータ) (2024-02-29T16:06:36Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - CDA: Contrastive-adversarial Domain Adaptation [11.354043674822451]
我々はtextbfContrastive-adversarial textbfDomain textbfAdaptation textbf(CDA) と呼ばれるドメイン適応のための2段階モデルを提案する。
逆成分はドメインレベルのアライメントを促進するが、2段階のコントラスト学習はクラス情報を利用してドメイン間の高いクラス内コンパクト性を実現する。
論文 参考訳(メタデータ) (2023-01-10T07:43:21Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - A New Bidirectional Unsupervised Domain Adaptation Segmentation
Framework [27.13101555533594]
異なるドメイン間のギャップを埋めるために、教師なしドメイン適応(UDA)技術が提案されている。
本稿では,両方向のUDA演奏に対して,非交互表現学習に基づく双方向UDAフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-18T05:25:11Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。