論文の概要: Suppress and Rebalance: Towards Generalized Multi-Modal Face
Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2402.19298v1
- Date: Thu, 29 Feb 2024 16:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:06:15.977999
- Title: Suppress and Rebalance: Towards Generalized Multi-Modal Face
Anti-Spoofing
- Title(参考訳): 抑制とリバランス:汎用マルチモーダル顔アンチスプーフィングを目指して
- Authors: Xun Lin, Shuai Wang, Rizhao Cai, Yizhong Liu, Ying Fu, Zitong Yu,
Wenzhong Tang, Alex Kot
- Abstract要約: Face Anti-Spoofing (FAS) は、顔認証システムのプレゼンテーション攻撃に対する保護に不可欠である。
多くのマルチモーダルなFASアプローチが出現しているが、見当たらない攻撃や展開条件を一般化する上での課題に直面している。
- 参考スコア(独自算出の注目度): 26.901402236963374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face Anti-Spoofing (FAS) is crucial for securing face recognition systems
against presentation attacks. With advancements in sensor manufacture and
multi-modal learning techniques, many multi-modal FAS approaches have emerged.
However, they face challenges in generalizing to unseen attacks and deployment
conditions. These challenges arise from (1) modality unreliability, where some
modality sensors like depth and infrared undergo significant domain shifts in
varying environments, leading to the spread of unreliable information during
cross-modal feature fusion, and (2) modality imbalance, where training overly
relies on a dominant modality hinders the convergence of others, reducing
effectiveness against attack types that are indistinguishable sorely using the
dominant modality. To address modality unreliability, we propose the
Uncertainty-Guided Cross-Adapter (U-Adapter) to recognize unreliably detected
regions within each modality and suppress the impact of unreliable regions on
other modalities. For modality imbalance, we propose a Rebalanced Modality
Gradient Modulation (ReGrad) strategy to rebalance the convergence speed of all
modalities by adaptively adjusting their gradients. Besides, we provide the
first large-scale benchmark for evaluating multi-modal FAS performance under
domain generalization scenarios. Extensive experiments demonstrate that our
method outperforms state-of-the-art methods. Source code and protocols will be
released on https://github.com/OMGGGGG/mmdg.
- Abstract(参考訳): face anti-spoofing (fas) はプレゼンテーション攻撃に対する顔認識システムを確保するために重要である。
センサ製造とマルチモーダル学習技術の進歩により、多くのマルチモーダルFASアプローチが出現している。
しかし、攻撃や展開条件を認識できないように一般化する上での課題に直面している。
これらの課題は、(1)奥行きや赤外線などのモダリティセンサーが様々な環境において重要な領域シフトを起こし、クロスモダリティ特徴融合中に信頼できない情報が拡散する、(2)モダリティ不均衡、(2)トレーニングが支配的なモダリティに依存する、他のモダリティの収束を阻害するモダリティ不均衡、そして支配的なモダリティを用いて識別不能な攻撃タイプに対する効果を低下させる、といったものである。
モダリティの不確実性に対処するために,不確実性誘導型クロスアダプタ(u-adapter)を提案し,各モダリティ内の不確かに検出された領域を認識し,他のモダリティに対する信頼できない領域の影響を抑制する。
モダリティの不均衡を考慮し,すべてのモダリティの収束速度を適応的に調整し,リバランスモードの勾配変調(ReGrad)戦略を提案する。
さらに、ドメイン一般化シナリオ下でのマルチモーダルFAS性能を評価するための最初の大規模ベンチマークを提供する。
広範な実験により,本手法が最先端手法よりも優れていることが証明された。
ソースコードとプロトコルはhttps://github.com/omggggg/mmdgでリリースされる。
関連論文リスト
- FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Cross-Modality Attack Boosted by Gradient-Evolutionary Multiform Optimization [4.226449585713182]
クロスモーダル・アタックは、トランスファービリティーへの攻撃に重大な課題をもたらす。
マルチフォームアタック(multiform attack)と呼ばれる,新たなクロスモーダルアタック戦略を提案する。
従来の手法と比較して,マルチフォームアタックの優位性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-09-26T15:52:34Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Real-GDSR: Real-World Guided DSM Super-Resolution via Edge-Enhancing Residual Network [2.3020018305241337]
低解像度デジタルサーフェスモデル(DSM)は、ノイズ、センサーの制限、データ取得条件の影響を受けやすい特性を特徴とする。
このため、合成データで訓練された超解像モデルは、実データでは効果的に機能しない。
本稿では,REAL-GDSRと呼ばれる実世界のDSM超解像の複雑さに対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T07:24:10Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z) - Contextual Fusion For Adversarial Robustness [0.0]
ディープニューラルネットワークは、通常、1つの特定の情報ストリームを処理し、様々な種類の敵の摂動に影響を受けやすいように設計されている。
そこで我々はPlaces-CNNとImagenet-CNNから並列に抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。
グラデーションをベースとした攻撃では,フュージョンは乱れのないデータの性能を低下させることなく,分類の大幅な改善を可能にする。
論文 参考訳(メタデータ) (2020-11-18T20:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。