論文の概要: Prepended Domain Transformer: Heterogeneous Face Recognition without
Bells and Whistles
- arxiv url: http://arxiv.org/abs/2210.06529v1
- Date: Wed, 12 Oct 2022 18:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 17:19:34.991835
- Title: Prepended Domain Transformer: Heterogeneous Face Recognition without
Bells and Whistles
- Title(参考訳): プリプテッドドメイントランスフォーマー:ベルやホイッスルのない不均質な顔認識
- Authors: Anjith George, Amir Mohammadi and Sebastien Marcel
- Abstract要約: 我々は、異なる知覚モードで顔画像とマッチングする、驚くほどシンプルで、かつ、非常に効果的な方法を提案する。
提案するアプローチはアーキテクチャ非依存であり、事前訓練されたモデルに追加することができる。
ソースコードとプロトコルは一般公開される予定だ。
- 参考スコア(独自算出の注目度): 9.419177623349947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous Face Recognition (HFR) refers to matching face images captured
in different domains, such as thermal to visible images (VIS), sketches to
visible images, near-infrared to visible, and so on. This is particularly
useful in matching visible spectrum images to images captured from other
modalities. Though highly useful, HFR is challenging because of the domain gap
between the source and target domain. Often, large-scale paired heterogeneous
face image datasets are absent, preventing training models specifically for the
heterogeneous task. In this work, we propose a surprisingly simple, yet, very
effective method for matching face images across different sensing modalities.
The core idea of the proposed approach is to add a novel neural network block
called Prepended Domain Transformer (PDT) in front of a pre-trained face
recognition (FR) model to address the domain gap. Retraining this new block
with few paired samples in a contrastive learning setup was enough to achieve
state-of-the-art performance in many HFR benchmarks. The PDT blocks can be
retrained for several source-target combinations using the proposed general
framework. The proposed approach is architecture agnostic, meaning they can be
added to any pre-trained FR models. Further, the approach is modular and the
new block can be trained with a minimal set of paired samples, making it much
easier for practical deployment. The source code and protocols will be made
available publicly.
- Abstract(参考訳): Heterogeneous Face Recognition (HFR) とは、熱から可視画像(VIS)、スケッチから可視画像、近赤外線から可視画像など、異なる領域で撮影された顔画像と一致するものを指す。
これは、他のモダリティから取得した画像と可視スペクトル画像のマッチングに特に有用である。
非常に有用ではあるが、ソースとターゲットドメイン間のドメインギャップのため、HFRは難しい。
大規模な一対の不均一な顔画像データセットが欠落することが多く、不均一なタスクに特化したトレーニングモデルが禁止されている。
そこで本研究では,異なる知覚モーダル間での顔画像のマッチングを,驚くほどシンプルかつ効果的に行う方法を提案する。
提案手法の核となるアイデアは、事前学習された顔認識(fr)モデルの前に、prepended domain transformer(pdt)と呼ばれる新しいニューラルネットワークブロックを追加することである。
対照的な学習設定でペアのサンプルをほとんど持たずにこの新しいブロックをトレーニングすることは、多くのHFRベンチマークで最先端のパフォーマンスを達成するのに十分であった。
PDTブロックは、提案した汎用フレームワークを使用して、複数のソースとターゲットの組み合わせに対して再トレーニングすることができる。
提案手法はアーキテクチャ非依存であり、事前訓練されたFRモデルに追加可能である。
さらに、このアプローチはモジュール化されており、新しいブロックは最小限のペアサンプルでトレーニングできるため、実用的なデプロイがずっと簡単になる。
ソースコードとプロトコルは一般公開される予定だ。
関連論文リスト
- MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Heterogeneous Face Recognition Using Domain Invariant Units [4.910937238451485]
教師ネットワークとして事前訓練された顔認識モデルを用いてドメイン不変ネットワーク層(DIU)を学習する。
提案したDIUは、対照的な蒸留フレームワークを用いて、限られた量のペアトレーニングデータでも効果的に訓練することができる。
提案手法は、事前訓練されたモデルを強化する可能性があり、より広い範囲のデータに適応できる。
論文 参考訳(メタデータ) (2024-04-22T16:58:37Z) - From Modalities to Styles: Rethinking the Domain Gap in Heterogeneous Face Recognition [4.910937238451485]
本研究では,既存の顔認識ネットワークにシームレスに適合する条件適応型インスタンス変調(CAIM)モジュールを提案する。
CAIMブロックは中間特徴写像を変調し、ソースモダリティのスタイルに効率よく適応し、ドメインギャップをブリッジする。
我々は,提案手法を様々な挑戦的HFRベンチマークで広く評価し,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-22T15:00:51Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Rethinking the Domain Gap in Near-infrared Face Recognition [65.7871950460781]
不均一顔認識(HFR)は、視覚領域(VIS)と近赤外領域(NIR)にまたがる複雑な顔画像マッチング作業を伴う。
HFRに関する既存の文献の多くは、ドメインギャップを主要な課題と認識し、それを入力レベルまたは機能レベルでブリッジする取り組みを指示している。
大規模同質なVISデータで事前トレーニングを行った場合、大規模ニューラルネットワークはより小さなニューラルネットワークとは異なり、HFRでは例外的なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-12-01T14:43:28Z) - Bridging the Gap: Heterogeneous Face Recognition with Conditional
Adaptive Instance Modulation [7.665392786787577]
本研究では,事前学習した顔認識ネットワークに統合可能な,新しい条件適応型インスタンス変調(CAIM)モジュールを提案する。
CAIMブロックは中間特徴写像を変調し、対象モダリティのスタイルに適応して領域ギャップを効果的にブリッジする。
提案手法は,最小限のペアサンプルでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-13T19:17:04Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。