論文の概要: Minutiae-Guided Fingerprint Embeddings via Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.13994v1
- Date: Tue, 25 Oct 2022 13:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 15:16:41.877702
- Title: Minutiae-Guided Fingerprint Embeddings via Vision Transformers
- Title(参考訳): 視覚トランスフォーマーによるminutiae誘導指紋埋め込み
- Authors: Steven A. Grosz, Joshua J. Engelsma, Rajeev Ranjan, Naveen
Ramakrishnan, Manoj Aggarwal, Gerard G. Medioni, Anil K. Jain
- Abstract要約: 視覚変換器(ViT)を用いた識別的固定長指紋埋め込みの学習
CNN や ViT によって学習された埋め込みを融合させることで,商用のSOTA (State-of-the-art) マーカでほぼ同等に到達できることを示す。
固定長埋め込みは、商用システムよりも桁違いに高速に対応できる。
- 参考スコア(独自算出の注目度): 34.516748746229325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Minutiae matching has long dominated the field of fingerprint recognition.
However, deep networks can be used to extract fixed-length embeddings from
fingerprints. To date, the few studies that have explored the use of CNN
architectures to extract such embeddings have shown extreme promise. Inspired
by these early works, we propose the first use of a Vision Transformer (ViT) to
learn a discriminative fixed-length fingerprint embedding. We further
demonstrate that by guiding the ViT to focus in on local, minutiae related
features, we can boost the recognition performance. Finally, we show that by
fusing embeddings learned by CNNs and ViTs we can reach near parity with a
commercial state-of-the-art (SOTA) matcher. In particular, we obtain a
TAR=94.23% @ FAR=0.1% on the NIST SD 302 public-domain dataset, compared to a
SOTA commercial matcher which obtains TAR=96.71% @ FAR=0.1%. Additionally, our
fixed-length embeddings can be matched orders of magnitude faster than the
commercial system (2.5 million matches/second compared to 50K matches/second).
We make our code and models publicly available to encourage further research on
this topic: https://github.com/tba.
- Abstract(参考訳): minutiaeマッチングは長い間、指紋認識の分野を支配してきた。
しかし、ディープネットワークは指紋から固定長の埋め込みを抽出することができる。
これまでCNNアーキテクチャを用いた埋め込みの抽出について研究してきた数少ない研究は、極めて有望であることを示している。
これらの初期の成果に触発され,視覚変換器 (ViT) を用いて識別可能な固定長指紋の埋め込みを学習する。
さらに,vitを局所的かつ最小的な機能に集中させることにより,認識性能を向上できることを実証する。
最後に、CNNとViTで学んだ埋め込みを融合させることで、商用のSOTA(State-of-the-art)マーカでほぼ同等に到達できることを示す。
特に、NIST SD 302のパブリックドメインデータセット上でTAR=94.23% @ FAR=0.1%を得るのに対し、SOTAの商用マーカはTAR=96.71% @ FAR=0.1%を得る。
さらに、固定長の埋め込みは、商用システムよりも桁違いに高速(50K/秒と比較して250万/秒)にできる。
私たちは、このトピックに関するさらなる研究を促進するために、コードとモデルを公開しています。
関連論文リスト
- Token Pruning using a Lightweight Background Aware Vision Transformer [0.6856888934092934]
トークンプルーニングは、各トークンの重要基準に基づいて、ViTへの入力トークンの数を減少させる。
バックグラウンドトークンは、ViTベースのオブジェクト検出器に供給する前に、完全にまたは部分的にプルーニングすることができる。
また,YOLOSのプリプロセッサとして2層BAViT-小モデルを用いて,mAPを3%減少させることなく,スループットを30% - 40%向上させることができることを示した。
論文 参考訳(メタデータ) (2024-10-12T01:44:54Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - AFR-Net: Attention-Driven Fingerprint Recognition Network [47.87570819350573]
指紋認識を含む生体認証における視覚変換器(ViT)の使用に関する初期研究を改善する。
ネットワーク内の中間特徴マップから抽出した局所的な埋め込みを用いて,グローバルな埋め込みを低確かさで洗練する手法を提案する。
この戦略は、既存のディープラーニングネットワーク(アテンションベース、CNNベース、あるいはその両方を含む)のラッパーとして適用することで、パフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2022-11-25T05:10:39Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - PrintsGAN: Synthetic Fingerprint Generator [39.804969475699345]
PrintsGANは、特定の指紋に対する複数の印象とともに、ユニークな指紋を生成することができる合成指紋生成装置である。
本研究では,指紋から一定の長さの埋め込みを抽出するために,深層ネットワークをトレーニングしたPrintsGANの有用性を示す。
論文 参考訳(メタデータ) (2022-01-10T22:25:10Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。