論文の概要: Improving Generalization of Deep Neural Network Acoustic Models with
Length Perturbation and N-best Based Label Smoothing
- arxiv url: http://arxiv.org/abs/2203.15176v1
- Date: Tue, 29 Mar 2022 01:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:55:08.571085
- Title: Improving Generalization of Deep Neural Network Acoustic Models with
Length Perturbation and N-best Based Label Smoothing
- Title(参考訳): 長い摂動とN-bestに基づくラベル平滑化によるディープニューラルネットワーク音響モデルの一般化
- Authors: Xiaodong Cui, George Saon, Tohru Nagano, Masayuki Suzuki, Takashi
Fukuda, Brian Kingsbury, Gakuto Kurata
- Abstract要約: 音声認識(ASR)のためのディープニューラルネットワーク(DNN)音響モデルの一般化を改善する2つの手法を提案する。
長さ摂動 (Longth perturbation) は、音声特徴系列の長さを変更するために音声のフレームをランダムにドロップして挿入するデータ拡張アルゴリズムである。
N-bestに基づくラベルスムーシングは、n-best仮説からノイズラベルが生成される過度な適合を避けるために、トレーニング中にグラウンド・真理ラベルにランダムにノイズを注入する。
- 参考スコア(独自算出の注目度): 49.82147684491619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce two techniques, length perturbation and n-best based label
smoothing, to improve generalization of deep neural network (DNN) acoustic
models for automatic speech recognition (ASR). Length perturbation is a data
augmentation algorithm that randomly drops and inserts frames of an utterance
to alter the length of the speech feature sequence. N-best based label
smoothing randomly injects noise to ground truth labels during training in
order to avoid overfitting, where the noisy labels are generated from n-best
hypotheses. We evaluate these two techniques extensively on the 300-hour
Switchboard (SWB300) dataset and an in-house 500-hour Japanese (JPN500) dataset
using recurrent neural network transducer (RNNT) acoustic models for ASR. We
show that both techniques improve the generalization of RNNT models
individually and they can also be complementary. In particular, they yield good
improvements over a strong SWB300 baseline and give state-of-art performance on
SWB300 using RNNT models.
- Abstract(参考訳): 本稿では,距離摂動とn-bestに基づくラベル平滑化という2つの手法を導入し,音声認識(ASR)のためのディープニューラルネットワーク(DNN)音響モデルの一般化を改善する。
length perturbationは、音声特徴列の長さを変更するために発話のフレームをランダムにドロップして挿入するデータ拡張アルゴリズムである。
N-bestに基づくラベルスムーシングは、n-best仮説からノイズラベルが生成される過度な適合を避けるために、トレーニング中にグラウンド・真理ラベルにランダムにノイズを注入する。
我々は,これらの2つの手法を,ASRの繰り返しニューラルネットワークトランスデューサ(RNNT)音響モデルを用いて,300時間スイッチボード(SWB300)データセットと社内500時間日本語(JPN500)データセットで広範囲に評価した。
両手法はRNNTモデルの一般化を個別に改善し,相補的であることを示す。
特に、強力なSWB300ベースラインよりも優れた改善を実現し、RNNTモデルを使用してSWB300上で最先端のパフォーマンスを提供する。
関連論文リスト
- Memory-augmented conformer for improved end-to-end long-form ASR [9.876354589883002]
本稿では,コンバータのエンコーダとデコーダ間のメモリ拡張ニューラルネットワークを提案する。
この外部メモリは、より長い発話の一般化を豊かにすることができる。
提案方式は,長い発話に対してメモリを使わずにベースラインコンバータより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-22T17:44:58Z) - Dilated convolutional neural network for detecting extreme-mass-ratio inspirals [8.809900732195281]
本稿では,周波数領域におけるシーケンスモデリングによるEMRI信号検出に着目したエンドツーエンドモデルDECODEを提案する。
我々は,SNRを50~120に蓄積した1年間のデータから,真正の96.3%を偽正の1%で達成した。
論文 参考訳(メタデータ) (2023-08-31T03:16:38Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Automated Atrial Fibrillation Classification Based on Denoising Stacked
Autoencoder and Optimized Deep Network [1.7403133838762446]
心房細動(AFib)の発症率は世界中で増加傾向にある。
AFibのリスクを早期に検出するために,我々はディープニューラルネットワークに基づく自動検出システムを開発した。
Denoising Autoencoders (DAE) を用いて心電図信号を復調するエンド・ツー・エンドモデルを提案する。
論文 参考訳(メタデータ) (2022-01-26T21:45:48Z) - Reducing Exposure Bias in Training Recurrent Neural Network Transducers [37.53697357406185]
自動音声認識のためのRNNTモデルの一般化のための訓練における露出バイアス低減手法について検討する。
我々は,高性能RNNT ASRモデルの精度をさらに向上し,300時間Switchboardデータセットの最先端結果を得ることができることを示す。
論文 参考訳(メタデータ) (2021-08-24T15:43:42Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。