論文の概要: WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics
- arxiv url: http://arxiv.org/abs/2407.08717v1
- Date: Thu, 11 Jul 2024 17:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:09:12.622577
- Title: WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics
- Title(参考訳): WhisperNetV2:SlowFast Siamese Network for Lip-based Biometrics
- Authors: Abdollah Zakeri, Hamid Hassanpour, Mohammad Hossein Khosravi, Amir Masoud Nourollah,
- Abstract要約: リップベースの生体認証(LBBA)は、過去10年間に多くの研究者を惹きつけてきた。
我々はWhisperNetV2と呼ばれる新しいネットワーク構造を提案し、WhisperNetと呼ばれるネットワークを拡張した。
オープンセットプロトコルを用いて、CREMA-Dデータセットを用いてネットワークをトレーニングし、テストセットで0.005のEER(Equal Error Rate)を取得しました。
- 参考スコア(独自算出の注目度): 9.512147747894026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lip-based biometric authentication (LBBA) has attracted many researchers during the last decade. The lip is specifically interesting for biometric researchers because it is a twin biometric with the potential to function both as a physiological and a behavioral trait. Although much valuable research was conducted on LBBA, none of them considered the different emotions of the client during the video acquisition step of LBBA, which can potentially affect the client's facial expressions and speech tempo. We proposed a novel network structure called WhisperNetV2, which extends our previously proposed network called WhisperNet. Our proposed network leverages a deep Siamese structure with triplet loss having three identical SlowFast networks as embedding networks. The SlowFast network is an excellent candidate for our task since the fast pathway extracts motion-related features (behavioral lip movements) with a high frame rate and low channel capacity. The slow pathway extracts visual features (physiological lip appearance) with a low frame rate and high channel capacity. Using an open-set protocol, we trained our network using the CREMA-D dataset and acquired an Equal Error Rate (EER) of 0.005 on the test set. Considering that the acquired EER is less than most similar LBBA methods, our method can be considered as a state-of-the-art LBBA method.
- Abstract(参考訳): リップベースの生体認証(LBBA)は、過去10年間に多くの研究者を惹きつけてきた。
唇は、生理的特性と行動的特性の両方を兼ね備えたツインバイオメトリックスであるため、バイオメトリック研究者にとって特に興味深い。
LBBAで非常に貴重な研究が行われたが、LBBAのビデオ取得ステップにおいてクライアントの異なる感情を考慮せず、クライアントの表情や発話テンポに影響を与える可能性がある。
我々はWhisperNetV2という新しいネットワーク構造を提案し、WhisperNetと呼ばれるネットワークを拡張した。
提案ネットワークは,3つのSlowFastネットワークを組込みネットワークと同一の3重項損失を持つディープ・シームズ構造を利用する。
SlowFast ネットワークは,高速経路が高いフレームレートと低チャネル容量で動作関連特徴(行動唇運動)を抽出するので,我々の課題に優れた候補となる。
遅い経路は、低いフレームレートと高いチャネル容量で視覚的特徴(生理的唇の外観)を抽出する。
オープンセットプロトコルを用いて、CREMA-Dデータセットを用いてネットワークをトレーニングし、テストセットで0.005のEER(Equal Error Rate)を取得しました。
得られたEERは最も類似したLBBA法よりも小さいので,本手法は最先端のLBBA法とみなすことができる。
関連論文リスト
- ECLipsE: Efficient Compositional Lipschitz Constant Estimation for Deep Neural Networks [0.8993153817914281]
リプシッツ定数は、入力摂動に対するニューラルネットワークの堅牢性を証明する上で重要な役割を果たす。
リプシッツ定数の厳密な上界を得る努力がなされている。
ディープフィードフォワードニューラルネットワークに対するリプシッツ定数を推定するための構成的アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-05T19:36:26Z) - One-shot lip-based biometric authentication: extending behavioral
features with authentication phrase information [3.038642416291856]
リップベースバイオメトリック認証(LBBA)は、カメラセンサが捉えたビデオデータの形態で、音声中の人の唇の動きに基づく認証方法である。
LBBAは、RGBカメラ以外の追加の感覚機器を必要とすることなく、唇の動きの物理的特性と行動的特性を両立させることができる。
論文 参考訳(メタデータ) (2023-08-14T05:34:36Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Lipschitz Bound Analysis of Neural Networks [0.0]
リプシッツ境界推定は、ディープニューラルネットワークを正則化し、敵の攻撃に対して堅牢にする効果的な方法である。
本稿では、畳み込みニューラルネットワーク(CNN)のための非自明なリプシッツ境界証明書を得る際の大きなギャップについて述べる。
また,畳み込みニューラルネットワーク(CNN)を完全連結ネットワークに変換するために,畳み込み層やToeplitz行列の展開も可能であることを示す。
論文 参考訳(メタデータ) (2022-07-14T23:40:22Z) - Towards Bi-directional Skip Connections in Encoder-Decoder Architectures
and Beyond [95.46272735589648]
本稿では,デコードされた機能をエンコーダに戻すための後方スキップ接続を提案する。
我々の設計は、任意のエンコーダ・デコーダアーキテクチャにおいて前方スキップ接続と共同で適用することができる。
本稿では,2相ニューラルネットワーク探索(NAS)アルゴリズム,すなわちBiX-NASを提案する。
論文 参考訳(メタデータ) (2022-03-11T01:38:52Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Group Fisher Pruning for Practical Network Compression [58.25776612812883]
本稿では,様々な複雑な構造に応用可能な汎用チャネルプルーニング手法を提案する。
我々は、単一チャネルと結合チャネルの重要性を評価するために、フィッシャー情報に基づく統一されたメトリクスを導出する。
提案手法は,結合チャネルを含む任意の構造をプルークするために利用できる。
論文 参考訳(メタデータ) (2021-08-02T08:21:44Z) - Exploring Deep Learning for Joint Audio-Visual Lip Biometrics [54.32039064193566]
音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
論文 参考訳(メタデータ) (2021-04-17T10:51:55Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - SpotFast Networks with Memory Augmented Lateral Transformers for
Lipreading [0.0]
本稿では,単語レベルのリップリーディングのための新しいディープラーニングアーキテクチャを提案する。
動作認識のための最新技術であるSlowFastネットワークの変種であるSpotFastネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-21T21:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。