論文の概要: Two-step Authentication: Multi-biometric System Using Voice and Facial Recognition
- arxiv url: http://arxiv.org/abs/2601.06218v1
- Date: Fri, 09 Jan 2026 02:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.688021
- Title: Two-step Authentication: Multi-biometric System Using Voice and Facial Recognition
- Title(参考訳): 2段階認証:声と顔の認識を用いたマルチバイオメトリックシステム
- Authors: Kuan Wei Chen, Ting Yi Lin, Wen Ren Yang, Aryan Kesarwani, Riya Singh,
- Abstract要約: 本稿では,一般的なデバイスで利用可能なカメラとマイクのみを用いて,顔認証と話者認証を統合した費用対効果の2段階認証システムを提案する。
顔認識のために、プルーニングされたVGG-16ベースの分類器は、MCCNNによってローカライズされた5人の被験者の924の画像の強化データセットに基づいて訓練される。
音声認識では、LibriSpeechで訓練されたCNN話者検証モデルが98.9%の精度で、テストクリーンでは3.456%のEERを達成した。
- 参考スコア(独自算出の注目度): 0.4077787659104315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a cost-effective two-step authentication system that integrates face identification and speaker verification using only a camera and microphone available on common devices. The pipeline first performs face recognition to identify a candidate user from a small enrolled group, then performs voice recognition only against the matched identity to reduce computation and improve robustness. For face recognition, a pruned VGG-16 based classifier is trained on an augmented dataset of 924 images from five subjects, with faces localized by MTCNN; it achieves 95.1% accuracy. For voice recognition, a CNN speaker-verification model trained on LibriSpeech (train-other-360) attains 98.9% accuracy and 3.456% EER on test-clean. Source code and trained models are available at https://github.com/NCUE-EE-AIAL/Two-step-Authentication-Multi-biometric-System.
- Abstract(参考訳): 本稿では,一般的なデバイスで利用可能なカメラとマイクのみを用いて,顔認証と話者認証を統合した費用対効果の2段階認証システムを提案する。
パイプラインは、まず、小さな登録されたグループから候補ユーザを特定するために顔認識を行い、その後、マッチングされたアイデンティティに対してのみ音声認識を行い、計算を減らし、堅牢性を向上させる。
顔認識のために、プルーニングされたVGG-16ベースの分類器は、5人の被験者による924の画像の強化データセットに基づいて訓練され、MSCNNによって局所化され、95.1%の精度が達成される。
音声認識では、LibriSpeech (train-other-360)で訓練されたCNN話者検証モデルが98.9%の精度で、テストクリーンでは3.456%のEERを達成した。
ソースコードとトレーニングされたモデルは、https://github.com/NCUE-EE-AIAL/Two-step-Authentication-Multi-biometric-Systemで入手できる。
関連論文リスト
- Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Deep Learning-based Spatio Temporal Facial Feature Visual Speech
Recognition [0.0]
パスワードをしゃべりながら、顔認識と個人特有の時間的顔の特徴的動作を併用する代替認証方式を提案する。
提案されたモデルは、業界標準のMIRACL-VC1データセットでテストしたときに96.1%の精度を達成した。
論文 参考訳(メタデータ) (2023-04-30T18:52:29Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Exploring Deep Learning for Joint Audio-Visual Lip Biometrics [54.32039064193566]
音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
論文 参考訳(メタデータ) (2021-04-17T10:51:55Z) - An Improved Real-Time Face Recognition System at Low Resolution Based on
Local Binary Pattern Histogram Algorithm and CLAHE [0.0]
本研究では、ポーズや感情、解像度のバリエーションのある15ピクセルの低解像度のリアルタイム顔認識システムを提案する。
トレーニングや分類に使用されている LRD200 と LRD100 というデータセットを設計しました。
この顔認識システムは、法執行目的で使用することができ、監視カメラは、カメラから人の距離のために低解像度の画像をキャプチャします。
論文 参考訳(メタデータ) (2021-04-15T04:54:29Z) - Real Time Face Recognition Using Convoluted Neural Networks [0.0]
畳み込みニューラルネットワークは顔認識に最適であることが証明されている。
データセットの作成は、認識される人の顔映像を何百もの人の画像に変換することで行われる。
論文 参考訳(メタデータ) (2020-10-09T12:04:49Z) - Few Shot Text-Independent speaker verification using 3D-CNN [0.0]
我々は,ごく少数の学習データを用いて話者の身元を検証するための新しい手法を提案してきた。
VoxCeleb1データセットで行った実験によると、非常に少ないデータでトレーニングしても、提案されたモデルの精度は、テキストに依存しない話者検証において、アートモデルの状態に近い。
論文 参考訳(メタデータ) (2020-08-25T15:03:29Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Investigating the Impact of Inclusion in Face Recognition Training Data
on Individual Face Identification [93.5538147928669]
最新のオープンソースの顔認識システムであるArcFaceを、100万枚以上の散らばった画像を用いた大規模な顔識別実験で監査する。
モデルのトレーニングデータには79.71%、存在しない人には75.73%のランク1顔認証精度がある。
論文 参考訳(メタデータ) (2020-01-09T15:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。