論文の概要: LEADER: Lightweight End-to-End Attention-Gated Dual Autoencoder for Robust Minutiae Extraction
- arxiv url: http://arxiv.org/abs/2602.15493v1
- Date: Tue, 17 Feb 2026 11:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.03959
- Title: LEADER: Lightweight End-to-End Attention-Gated Dual Autoencoder for Robust Minutiae Extraction
- Title(参考訳): LEADER:ロバストミニチュア抽出用軽量エンドツーエンド型デュアルオートエンコーダ
- Authors: Raffaele Cappelli, Matteo Ferrara,
- Abstract要約: 本稿では,生の指紋画像を微細な記述子にマッピングするニューラルネットワークであるLEADER(Lightweight End-to-end Attention-gated Dual autoencodER)を紹介する。
新しく作られた"Castle-Moat-Rampart"のグラウンドトルースエンコーディングと、アテンションゲーティング機構を介して相互接続されたデュアルオートコーダ構造を採用している。
NIST SD27データセットでF1スコアが34%高い。
- 参考スコア(独自算出の注目度): 0.05978532290288763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minutiae extraction, a fundamental stage in fingerprint recognition, is increasingly shifting toward deep learning. However, truly end-to-end methods that eliminate separate preprocessing and postprocessing steps remain scarce. This paper introduces LEADER (Lightweight End-to-end Attention-gated Dual autoencodER), a neural network that maps raw fingerprint images to minutiae descriptors, including location, direction, and type. The proposed architecture integrates non-maximum suppression and angular decoding to enable complete end-to-end inference using only 0.9M parameters. It employs a novel "Castle-Moat-Rampart" ground-truth encoding and a dual-autoencoder structure, interconnected through an attention-gating mechanism. Experimental evaluations demonstrate state-of-the-art accuracy on plain fingerprints and robust cross-domain generalization to latent impressions. Specifically, LEADER attains a 34% higher F1-score on the NIST SD27 dataset compared to specialized latent minutiae extractors. Sample-level analysis on this challenging benchmark reveals an average rank of 2.07 among all compared methods, with LEADER securing the first-place position in 47% of the samples-more than doubling the frequency of the second-best extractor. The internal representations learned by the model align with established fingerprint domain features, such as segmentation masks, orientation fields, frequency maps, and skeletons. Inference requires 15ms on GPU and 322ms on CPU, outperforming leading commercial software in computational efficiency. The source code and pre-trained weights are publicly released to facilitate reproducibility.
- Abstract(参考訳): 指紋認識の基本段階であるMinutiaeの抽出は、ますます深層学習へとシフトしつつある。
しかし、別々の前処理と後処理のステップをなくす真にエンドツーエンドのメソッドは依然として少ないままである。
本稿では,LEADER(Lightweight End-to-end Attention-gated Dual AutoencodER)について紹介する。
提案アーキテクチャは,最大ではない抑制と角デコードを統合し,0.9Mパラメータのみを用いた完全なエンドツーエンド推論を実現する。
新しく作られた"Castle-Moat-Rampart"のグラウンドトルースエンコーディングと、アテンションゲーティング機構を介して相互接続されたデュアルオートコーダ構造を採用している。
実験により, 指紋に対する最先端の精度, 潜在印象に対する堅牢なクロスドメイン一般化が示された。
特に、LEADERはNIST SD27データセットのF1スコアを、特殊なミツバチ抽出物と比較すると34%高い。
LEADERはサンプルの47%で第1位を確保しており、第2のベスト抽出器の周波数を2倍にしている。
モデルによって学習された内部表現は、セグメンテーションマスク、配向フィールド、周波数マップ、スケルトンなどの確立した指紋領域の特徴と一致している。
推論にはGPUで15ms、CPUで322msが必要で、計算効率で主要な商用ソフトウェアより優れている。
ソースコードと事前訓練された重み付けは、再現性を促進するために公開されている。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - HandReader: Advanced Techniques for Efficient Fingerspelling Recognition [75.38606213726906]
本稿では,指先認識タスクに対処するために設計された3つのアーキテクチャ群であるHandReaderを紹介する。
HandReader$_RGB$は、様々な長さのビデオからRGBの機能を処理するために、Adaptive Shift-Temporal Module (TSAM) という小説を使っている。
HandReader$_KP$は、キーポイントをテンソルとして操作するTPE(Temporal Pose)上に構築されている。
各HandReaderモデルは、それぞれ異なるアドバンテージを持ち、ChicagoFSWildとChicagoFSWild+データセットの最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-15T13:18:37Z) - Finger Pose Estimation for Under-screen Fingerprint Sensor [33.05877729161858]
画面下指紋ポーズ推定のための新しいデュアルモーダル入力ベースネットワークを提案する。
本手法は,スクリーン下指紋センサによる隆起パッチから抽出したテクスチャの詳細と,タッチスクリーンから得られた容量画像から得られた粗い輪郭を効果的に統合する。
本手法は従来のSOTA法よりも優れており,指紋認識アルゴリズムの認識能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-05T09:05:47Z) - SAM-based instance segmentation models for the automation of structural
damage detection [0.0]
M1300と命名された1,300の注釈付き画像(640ピクセル×640ピクセル)で、レンガ、壊れたレンガ、ひび割れをカバーしている。
我々は、最新の大規模モデル、プロンプトベースのSegment Anything Model(SAM)など、ベンチマークのためのいくつかの主要なアルゴリズムをテストする。
本稿では,SAM実行を自動化する2つの新しい手法を提案する。第1の方法はプロンプトエンコーダを捨て,SAMエンコーダを他のデコーダに接続することであり,第2の方法は学習可能な自己生成プロンプトを導入する。
論文 参考訳(メタデータ) (2024-01-27T02:00:07Z) - Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。