論文の概要: Exploring Gaussian mixture model framework for speaker adaptation of
deep neural network acoustic models
- arxiv url: http://arxiv.org/abs/2003.06894v1
- Date: Sun, 15 Mar 2020 18:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 09:03:31.489201
- Title: Exploring Gaussian mixture model framework for speaker adaptation of
deep neural network acoustic models
- Title(参考訳): ディープニューラルネットワーク音響モデルの話者適応のためのガウス混合モデルフレームワークの検討
- Authors: Natalia Tomashenko, Yuri Khokhlov, Yannick Esteve
- Abstract要約: ディープニューラルネットワーク(DNN)音響モデルの適応のためのGMMDの特徴について検討する。
我々は2つの異なるニューラルネットワークアーキテクチャにおいて、適応されたGMMD機能と、ボトルネックやMFCC機能との融合について検討する。
- 参考スコア(独自算出の注目度): 3.867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate the GMM-derived (GMMD) features for adaptation
of deep neural network (DNN) acoustic models. The adaptation of the DNN trained
on GMMD features is done through the maximum a posteriori (MAP) adaptation of
the auxiliary GMM model used for GMMD feature extraction. We explore fusion of
the adapted GMMD features with conventional features, such as bottleneck and
MFCC features, in two different neural network architectures: DNN and
time-delay neural network (TDNN). We analyze and compare different types of
adaptation techniques such as i-vectors and feature-space adaptation techniques
based on maximum likelihood linear regression (fMLLR) with the proposed
adaptation approach, and explore their complementarity using various types of
fusion such as feature level, posterior level, lattice level and others in
order to discover the best possible way of combination. Experimental results on
the TED-LIUM corpus show that the proposed adaptation technique can be
effectively integrated into DNN and TDNN setups at different levels and provide
additional gain in recognition performance: up to 6% of relative word error
rate reduction (WERR) over the strong feature-space adaptation techniques based
on maximum likelihood linear regression (fMLLR) speaker adapted DNN baseline,
and up to 18% of relative WERR in comparison with a speaker independent (SI)
DNN baseline model, trained on conventional features. For TDNN models the
proposed approach achieves up to 26% of relative WERR in comparison with a SI
baseline, and up 13% in comparison with the model adapted by using i-vectors.
The analysis of the adapted GMMD features from various points of view
demonstrates their effectiveness at different levels.
- Abstract(参考訳): 本稿では,ディープニューラルネットワーク(DNN)音響モデルの適応のためのGMMDの特徴について検討する。
GMMD特徴抽出に使用される補助GMMモデルのMAP適応を最大化することにより,GMMD特徴量に基づいて訓練したDNNの適応を行う。
DNNとTDNN(Time-delay Neural Network)という,2つの異なるニューラルネットワークアーキテクチャにおいて,GMMD機能とボトルネックやMFCC機能との融合を検討する。
提案手法を用いて, 最大極大線形回帰(fMLLR)に基づくiベクターや特徴空間適応手法などの異なる種類の適応手法を解析・比較し, それらの相補性を特徴レベル, 後方レベル, 格子レベルなどの様々な種類の融合を用いて検討し, 組み合わせの最良の方法を見出す。
Experimental results on the TED-LIUM corpus show that the proposed adaptation technique can be effectively integrated into DNN and TDNN setups at different levels and provide additional gain in recognition performance: up to 6% of relative word error rate reduction (WERR) over the strong feature-space adaptation techniques based on maximum likelihood linear regression (fMLLR) speaker adapted DNN baseline, and up to 18% of relative WERR in comparison with a speaker independent (SI) DNN baseline model, trained on conventional features.
TDNNモデルの場合、提案手法はSIベースラインと比較して最大26%の相対WERRを達成し、i-vectorsを用いたモデルと比較すると13%も向上する。
様々な視点から適用されたGMMDの特徴の分析は、異なるレベルでの有効性を示す。
関連論文リスト
- AD-NEv++ : The multi-architecture neuroevolution-based multivariate anomaly detection framework [0.794682109939797]
異常検出ツールと方法は、現代のサイバー物理およびセンサーベースのシステムにおいて重要な分析機能を可能にする。
我々は,サブスペース進化,モデル進化,微調整を相乗的に組み合わせた3段階の神経進化に基づくAD-NEv++を提案する。
我々は、AD-NEv++が全ての異常検出ベンチマークにおいて最先端のGNN(Graph Neural Networks)モデルアーキテクチャを改善し、性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-03-25T08:40:58Z) - Satellite Anomaly Detection Using Variance Based Genetic Ensemble of
Neural Networks [7.848121055546167]
複数のリカレントニューラルネットワーク(RNN)からの予測の効率的なアンサンブルを用いる。
予測のために、各RNNモデルに対して最適な構造を構築する遺伝的アルゴリズム(GA)によって、各RNNを導出する。
本稿では,BNNの近似版としてモンテカルロ(MC)ドロップアウトを用いる。
論文 参考訳(メタデータ) (2023-02-10T22:09:00Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - DEMAND: Deep Matrix Approximately NonlinearDecomposition to Identify
Meta, Canonical, and Sub-Spatial Pattern of functional Magnetic Resonance
Imaging in the Human Brain [8.93274096260726]
本研究では,SDL(Sparse Dictionary Learning)やDNN(Deep Neural Networks)といった浅い線形モデルを活用するために,Deep A roughly Decomposition(DEMAND)という新しい非線形行列分解法を提案する。
DEMANDは、人間の脳の再現可能な代謝、正準的、および部分空間的特徴を、他の仲間の方法論よりも効率的に明らかにすることができる。
論文 参考訳(メタデータ) (2022-05-20T15:55:01Z) - Parameter estimation for WMTI-Watson model of white matter using
encoder-decoder recurrent neural network [0.0]
本研究では,ラットおよびヒト脳のデータセット上でのNLLS,RNN法および多層パーセプトロン(MLP)の性能を評価する。
提案手法は,NLLSよりも計算時間を大幅に短縮できるという利点を示した。
論文 参考訳(メタデータ) (2022-03-01T16:33:15Z) - DS-UI: Dual-Supervised Mixture of Gaussian Mixture Models for
Uncertainty Inference [52.899219617256655]
本稿では、ディープニューラルネットワーク(DNN)に基づく画像認識において、ベイズ推定に基づく不確実性推論(UI)を改善するための二重教師付き不確実性推論(DS-UI)フレームワークを提案する。
DS-UIでは、最後の完全連結(FC)層とガウス混合モデル(MoGMM)を組み合わせ、MoGMM-FC層を得る。
実験の結果,DS-UIは誤分類検出において最先端のUI手法よりも優れていた。
論文 参考訳(メタデータ) (2020-11-17T12:35:02Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Bayesian Graph Neural Networks with Adaptive Connection Sampling [62.51689735630133]
グラフニューラルネットワーク(GNN)における適応接続サンプリングのための統一的なフレームワークを提案する。
提案フレームワークは,深部GNNの過度なスムース化や過度に適合する傾向を緩和するだけでなく,グラフ解析タスクにおけるGNNによる不確実性の学習を可能にする。
論文 参考訳(メタデータ) (2020-06-07T07:06:35Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。