論文の概要: Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments
- arxiv url: http://arxiv.org/abs/2112.13353v1
- Date: Sun, 26 Dec 2021 10:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 17:25:14.927786
- Title: Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments
- Title(参考訳): 感情的・ストレス的発話環境における話者検証のための新しいハイブリッドDNN手法
- Authors: Ismail Shahin, Ali Bou Nassif, Nawel Nemmour, Ashraf Elnagar, Adi
Alhudhaif, Kemal Polat
- Abstract要約: この研究は、深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
その結果、HMM-DNNは、EER(Equal error rate)およびAUC(Equal curve)評価指標で他の全てのハイブリッドモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 1.0998375857698495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we conducted an empirical comparative study of the performance
of text-independent speaker verification in emotional and stressful
environments. This work combined deep models with shallow architecture, which
resulted in novel hybrid classifiers. Four distinct hybrid models were
utilized: deep neural network-hidden Markov model (DNN-HMM), deep neural
network-Gaussian mixture model (DNN-GMM), Gaussian mixture model-deep neural
network (GMM-DNN), and hidden Markov model-deep neural network (HMM-DNN). All
models were based on novel implemented architecture. The comparative study used
three distinct speech datasets: a private Arabic dataset and two public English
databases, namely, Speech Under Simulated and Actual Stress (SUSAS) and Ryerson
Audio-Visual Database of Emotional Speech and Song (RAVDESS). The test results
of the aforementioned hybrid models demonstrated that the proposed HMM-DNN
leveraged the verification performance in emotional and stressful environments.
Results also showed that HMM-DNN outperformed all other hybrid models in terms
of equal error rate (EER) and area under the curve (AUC) evaluation metrics.
The average resulting verification system based on the three datasets yielded
EERs of 7.19%, 16.85%, 11.51%, and 11.90% based on HMM-DNN, DNN-HMM, DNN-GMM,
and GMM-DNN, respectively. Furthermore, we found that the DNN-GMM model
demonstrated the least computational complexity compared to all other hybrid
models in both talking environments. Conversely, the HMM-DNN model required the
greatest amount of training time. Findings also demonstrated that EER and AUC
values depended on the database when comparing average emotional and stressful
performances.
- Abstract(参考訳): 本研究では,感情的・ストレス的環境におけるテキスト非依存話者検証の性能に関する実証的研究を行った。
この研究は深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、ガウス混合モデル-ディープニューラルネットワーク(GMM-DNN)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
すべてのモデルは、新しい実装アーキテクチャに基づいている。
比較研究では、個人用アラビア語データセットと2つの公的な英語データベース、すなわちsusas(シミュレート・アンド・リアル・ストレス)とryersonの感情音声・視覚データベース(ravdess)の3つの異なる音声データセットを用いた。
以上のハイブリッドモデルによる実験結果から,HMM-DNNは情緒的,ストレス的な環境下での検証性能を生かした。
また、HMM-DNNは、EER(Equal error rate)とAUC(Equal curve)の評価指標で他の全てのハイブリッドモデルよりも優れていた。
3つのデータセットに基づく平均的な検証システムは、それぞれHMM-DNN、DNN-HMM、DNN-GMM、GMM-DNNに基づいてEERを7.19%、16.85%、11.51%、11.90%とした。
さらに,DNN-GMMモデルでは,両発話環境における他のハイブリッドモデルと比較して計算複雑性が低かった。
逆に、HMM-DNNモデルは最大のトレーニング時間を必要とした。
また、EERとAUCの値は、平均的な感情的およびストレス的なパフォーマンスを比較する際に、データベースに依存することを示した。
関連論文リスト
- How to Learn More? Exploring Kolmogorov-Arnold Networks for Hyperspectral Image Classification [26.37105279142761]
Kolmogorov-Arnold Networks (KANs) は視覚変換器 (ViTs) の代替として提案された。
本研究では,複雑なハイパースペクトル画像(HSI)データ分類におけるkansの有効性を評価する。
そこで我々は,1D,2D,3Dkanを用いたハイブリッドアーキテクチャを開発し,提案する。
論文 参考訳(メタデータ) (2024-06-22T03:31:02Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - 2D Self-Organized ONN Model For Handwritten Text Recognition [4.66970207245168]
本研究では,新たなネットワークモデルの中心となる2次元自己組織型ONN(Self-ONNs)を提案する。
近年, 書体スタイルの変動に対処することが実証された変形可能な畳み込みが本研究で活用されている。
提案手法は, 文字誤り率 (CER) と単語誤り率 (WER) を大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-07-17T11:18:20Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Auditory Attention Decoding from EEG using Convolutional Recurrent
Neural Network [20.37214453938965]
聴覚注意復号(aad)アプローチは,マルチトーカーシナリオにおいて参加者のアイデンティティを判定するために提案されている。
近年,この問題を解決するためにディープニューラルネットワーク(DNN)に基づくモデルが提案されている。
本論文では,新しい畳み込み型リカレントニューラルネットワーク(CRNN)に基づく回帰モデルと分類モデルを提案する。
論文 参考訳(メタデータ) (2021-03-03T05:09:40Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Exploring Gaussian mixture model framework for speaker adaptation of
deep neural network acoustic models [3.867363075280544]
ディープニューラルネットワーク(DNN)音響モデルの適応のためのGMMDの特徴について検討する。
我々は2つの異なるニューラルネットワークアーキテクチャにおいて、適応されたGMMD機能と、ボトルネックやMFCC機能との融合について検討する。
論文 参考訳(メタデータ) (2020-03-15T18:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。