論文の概要: A Mixture of Expert Based Deep Neural Network for Improved ASR
- arxiv url: http://arxiv.org/abs/2112.01025v1
- Date: Thu, 2 Dec 2021 07:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 16:48:58.997509
- Title: A Mixture of Expert Based Deep Neural Network for Improved ASR
- Title(参考訳): 改良型ASRのためのエキスパートベースディープニューラルネットワークの混合
- Authors: Vishwanath Pratap Singh, Shakti P. Rath, Abhishek Pandey
- Abstract要約: MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
- 参考スコア(独自算出の注目度): 4.993304210475779
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel deep learning architecture for acoustic model in
the context of Automatic Speech Recognition (ASR), termed as MixNet. Besides
the conventional layers, such as fully connected layers in DNN-HMM and memory
cells in LSTM-HMM, the model uses two additional layers based on Mixture of
Experts (MoE). The first MoE layer operating at the input is based on
pre-defined broad phonetic classes and the second layer operating at the
penultimate layer is based on automatically learned acoustic classes. In
natural speech, overlap in distribution across different acoustic classes is
inevitable, which leads to inter-class mis-classification. The ASR accuracy is
expected to improve if the conventional architecture of acoustic model is
modified to make them more suitable to account for such overlaps. MixNet is
developed keeping this in mind. Analysis conducted by means of scatter diagram
verifies that MoE indeed improves the separation between classes that
translates to better ASR accuracy. Experiments are conducted on a large
vocabulary ASR task which show that the proposed architecture provides 13.6%
and 10.0% relative reduction in word error rates compared to the conventional
models, namely, DNN and LSTM respectively, trained using sMBR criteria. In
comparison to an existing method developed for phone-classification (by Eigen
et al), our proposed method yields a significant improvement.
- Abstract(参考訳): 本論文では,MixNetと呼ばれる音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャを提案する。
DNN-HMMの完全接続層やLSTM-HMMのメモリセルのような従来のレイヤに加えて、モデルではMixture of Experts (MoE)に基づく2つの追加レイヤを使用する。
入力で動作する第1moe層は予め定義された広音素クラスに基づいており、ペナルティメート層で動作する第2層は自動学習された音響クラスに基づいている。
自然言語では、異なる音響クラス間の分布の重複は避けられないため、クラス間の誤分類につながる。
ASRの精度は、従来の音響モデルのアーキテクチャを修正して、そのような重複を考慮するのにより適したものにすれば改善されると予想される。
MixNetは、これを念頭に置いて開発されている。
散乱図による解析により、MoEが真のASR精度に変換するクラス間の分離を改善することが確かめられる。
提案手法は,smbrの基準で学習した従来のモデル,dnn,lstmと比較して,13.6%,10.0%の単語誤り率を低減できることを示す大語彙asrタスクを用いて実験を行った。
Eigenらによる)電話分類のための既存手法と比較して,提案手法は大幅な改善をもたらす。
関連論文リスト
- MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。
10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-20T03:01:41Z) - MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization [49.00754561435518]
MSRSは、RS3ベンチマークで21.1%と0.9%のWERでVSRとAVSRの競争結果を達成し、トレーニング時間を少なくとも2倍に短縮した。
我々は、他のスパースアプローチを探索し、MSRSだけが、消失する勾配によって影響を受ける重量を暗黙的に隠蔽することで、スクラッチからトレーニングできることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:00:43Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Conformer-based Hybrid ASR System for Switchboard Dataset [99.88988282353206]
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
論文 参考訳(メタデータ) (2021-11-05T12:03:18Z) - Improving Character Error Rate Is Not Equal to Having Clean Speech:
Speech Enhancement for ASR Systems with Black-box Acoustic Models [1.6328866317851185]
本稿では,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
提案手法は2つのDNNを用いており、1つは音声処理用、もう1つは音響モデル(AM)による出力CERを模倣する。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。
論文 参考訳(メタデータ) (2021-10-12T12:51:53Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - High-Accuracy and Low-Latency Speech Recognition with Two-Head
Contextual Layer Trajectory LSTM Model [46.34788932277904]
我々は,高精度かつ低遅延自動音声認識のための従来のハイブリッドLSTM音響モデルの改良を行った。
高い精度を達成するために、時間的モデリングとターゲット分類タスクを分離する文脈層トラジェクトリLSTM(cltLSTM)を用いる。
シーケンスレベルの教師学生学習による学習戦略をさらに改善する。
論文 参考訳(メタデータ) (2020-03-17T00:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。