論文の概要: Exploring Deep Learning for Joint Audio-Visual Lip Biometrics
- arxiv url: http://arxiv.org/abs/2104.08510v1
- Date: Sat, 17 Apr 2021 10:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 12:55:06.696719
- Title: Exploring Deep Learning for Joint Audio-Visual Lip Biometrics
- Title(参考訳): 統合型オーディオ・ビジュアルリップバイオメトリックスのための深層学習の探索
- Authors: Meng Liu, Longbiao Wang, Kong Aik Lee, Hanyi Zhang, Chang Zeng, Jianwu
Dang
- Abstract要約: 音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
大規模なAVデータベースの欠如は、ディープラーニングベースのオーディオビジュアルリップバイオメトリックの探索を妨げる。
我々は、畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール、時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール、マルチモーダル融合モジュールで実現されたDeepLip AVリップバイオメトリックスシステムを確立する。
- 参考スコア(独自算出の注目度): 54.32039064193566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual (AV) lip biometrics is a promising authentication technique that
leverages the benefits of both the audio and visual modalities in speech
communication. Previous works have demonstrated the usefulness of AV lip
biometrics. However, the lack of a sizeable AV database hinders the exploration
of deep-learning-based audio-visual lip biometrics. To address this problem, we
compile a moderate-size database using existing public databases. Meanwhile, we
establish the DeepLip AV lip biometrics system realized with a convolutional
neural network (CNN) based video module, a time-delay neural network (TDNN)
based audio module, and a multimodal fusion module. Our experiments show that
DeepLip outperforms traditional speaker recognition models in context modeling
and achieves over 50% relative improvements compared with our best single
modality baseline, with an equal error rate of 0.75% and 1.11% on the test
datasets, respectively.
- Abstract(参考訳): 音声視覚(AV)リップバイオメトリックスは、音声通信における音声と視覚の両方の利点を利用する有望な認証技術である。
従来の研究は、AVリップバイオメトリックスの有用性を示した。
しかし、大型avデータベースの欠如は、ディープラーニングに基づく視聴覚バイオメトリックスの探求を妨げている。
この問題に対処するため,既存の公開データベースを用いて中規模データベースをコンパイルする。
一方,我々は,畳み込みニューラルネットワーク(CNN)ベースのビデオモジュール,時間遅延ニューラルネットワーク(TDNN)ベースのオーディオモジュール,マルチモーダル融合モジュールによって実現されたDeepLip AVリップバイオメトリックスシステムを構築した。
実験の結果、DeepLipは文脈モデルにおいて従来の話者認識モデルよりも優れており、テストデータセットでそれぞれ0.75%と1.11%の誤差率で、最高の単一モダリティベースラインと比較して50%以上の相対的な改善を実現していることがわかった。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification [0.0]
本稿では,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。
また、難聴、難聴、音声強調などの実験にも容易に利用できる。
論文 参考訳(メタデータ) (2021-11-11T20:55:58Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Transfer Learning and SpecAugment applied to SSVEP Based BCI
Classification [1.9336815376402716]
我々は、ディープ畳み込みニューラルネットワーク(DCNN)を使用して、単一チャネル脳-コンピュータインタフェース(BCI)で脳波信号を分類する。
脳波信号はスペクトログラムに変換され、転送学習技術を用いてDCNNを訓練するための入力として機能した。
論文 参考訳(メタデータ) (2020-10-08T00:30:12Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - A Novel Deep Learning Architecture for Decoding Imagined Speech from EEG [2.4063592468412267]
我々は、ディープニューラルネットワーク(DNN)を用いて、"in"と"cooperate"の単語を分類する新しいアーキテクチャを提案する。
9つの脳波チャンネルは、下層の皮質活動を最もよく捉え、共通空間パターンを用いて選択される。
我々は最先端の結果に匹敵する精度を達成した。
論文 参考訳(メタデータ) (2020-03-19T00:57:40Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。