論文の概要: Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection
- arxiv url: http://arxiv.org/abs/2109.07950v1
- Date: Thu, 16 Sep 2021 13:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 13:56:51.161126
- Title: Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection
- Title(参考訳): 汎用顔提示検出のための学習可能な多レベル周波数分解と階層的注意機構
- Authors: Meiling Fang and Naser Damer and Florian Kirchbuchner and Arjan
Kuijper
- Abstract要約: 顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
- 参考スコア(独自算出の注目度): 7.324459578044212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increased deployment of face recognition systems in our daily lives,
face presentation attack detection (PAD) is attracting a lot of attention and
playing a key role in securing face recognition systems. Despite the great
performance achieved by the hand-crafted and deep learning based methods in
intra-dataset evaluations, the performance drops when dealing with unseen
scenarios. In this work, we propose a dual-stream convolution neural networks
(CNNs) framework. One stream adapts four learnable frequency filters to learn
features in the frequency domain, which are less influenced variations in
sensors/illuminations. The other stream leverage the RGB images to complement
the features of the frequency domain. Moreover, we propose a hierarchical
attention module integration to join the information from the two streams at
different stages by considering the nature of deep features in different layers
of the CNN. The proposed method is evaluated in the intra-dataset and
cross-dataset setups and the results demonstrates that our proposed approach
enhances the generalizability in most experimental setups in comparison to
state-of-the-art, including the methods designed explicitly for domain
adaption/shift problem. We successfully prove the design of our proposed PAD
solution in a step-wise ablation study that involves our proposed learnable
frequency decomposition, our hierarchical attention module design, and the used
loss function. Training codes and pre-trained models are publicly released.
- Abstract(参考訳): 顔認識システムが日常的に普及するにつれて,顔提示アタック検出(pad)が注目され,顔認識システムのセキュリティにおいて重要な役割を担っている。
データセット内評価において手作りおよびディープラーニングベースの手法によって達成された優れたパフォーマンスにもかかわらず、目に見えないシナリオを扱う場合のパフォーマンスは低下する。
本研究では,両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
1つのストリームは4つの学習可能な周波数フィルタを適用して周波数領域の特徴を学習する。
他のストリームはRGB画像を利用して周波数領域の特徴を補完する。
さらに、CNNの異なる層における深い特徴の性質を考慮し、2つのストリームからの情報を異なる段階で結合する階層的アテンションモジュールの統合を提案する。
提案手法はデータセット内およびデータセット間設定において評価され,提案手法はドメイン適応/シフト問題に特化して設計された手法を含む最先端技術と比較して,ほとんどの実験装置における一般化可能性を高めることを示す。
提案手法は, 学習可能な周波数分解, 階層的注意モジュール設計, 使用済み損失関数を含む段階的アブレーション研究において, 提案手法の設計を成功に導いた。
トレーニングコードと事前訓練されたモデルが公開されている。
関連論文リスト
- Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Exploring Cross-Domain Few-Shot Classification via Frequency-Aware Prompting [37.721042095518044]
クロスドメインなFew-Shot Learningはメタラーニングの発展に大きく貢献している。
本稿では,相互に注意を向けた周波数対応プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T08:14:09Z) - SAAN: Similarity-aware attention flow network for change detection with
VHR remote sensing images [41.27207121222832]
変化検出(CD)は、地球観測領域における陸面のダイナミクスを監視するための基本的かつ重要な課題である。
これらのCD法は通常、重み共有のシームズエンコーダネットワークを用いてバイテンポラル画像の特徴を抽出し、デコーダネットワークを用いて変化領域を同定する。
そこで我々は,効果的な変化検出を実現するために,新たな類似性認識型注意フローネットワーク(SAAN)を提案する。
論文 参考訳(メタデータ) (2023-08-28T13:35:07Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。