論文の概要: Noisy Training Improves E2E ASR for the Edge
- arxiv url: http://arxiv.org/abs/2107.04677v1
- Date: Fri, 9 Jul 2021 20:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:04:55.936159
- Title: Noisy Training Improves E2E ASR for the Edge
- Title(参考訳): ノイズトレーニングによるエッジ用E2E ASRの改善
- Authors: Dilin Wang, Yuan Shangguan, Haichuan Yang, Pierce Chuang, Jiatong
Zhou, Meng Li, Ganesh Venkatesh, Ozlem Kalinli, Vikas Chandra
- Abstract要約: 音声認識(ASR)は現代のエッジデバイスでますます普及している。
E2E ASRモデルは過度に適合する傾向があり、見えないテストデータの一般化には困難である。
本稿では,E2E ASRモデルトレーニングをさらに改善するための,シンプルで効果的な雑音訓練戦略を提案する。
- 参考スコア(独自算出の注目度): 22.91184103295888
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic speech recognition (ASR) has become increasingly ubiquitous on
modern edge devices. Past work developed streaming End-to-End (E2E) all-neural
speech recognizers that can run compactly on edge devices. However, E2E ASR
models are prone to overfitting and have difficulties in generalizing to unseen
testing data. Various techniques have been proposed to regularize the training
of ASR models, including layer normalization, dropout, spectrum data
augmentation and speed distortions in the inputs. In this work, we present a
simple yet effective noisy training strategy to further improve the E2E ASR
model training. By introducing random noise to the parameter space during
training, our method can produce smoother models at convergence that generalize
better. We apply noisy training to improve both dense and sparse
state-of-the-art Emformer models and observe consistent WER reduction.
Specifically, when training Emformers with 90% sparsity, we achieve 12% and 14%
WER improvements on the LibriSpeech Test-other and Test-clean data set,
respectively.
- Abstract(参考訳): 音声認識(ASR)は現代のエッジデバイスでますます普及している。
過去の研究では、エッジデバイス上でコンパクトに動作可能な全ニューロン音声認識器(E2E)を開発した。
しかしながら、E2E ASRモデルは過度に適合する傾向にあり、見えないテストデータの一般化には困難である。
層正規化、ドロップアウト、スペクトルデータ増大、入力の速度歪みなど、ASRモデルのトレーニングを規則化する様々な手法が提案されている。
本稿では,e2e asrモデルトレーニングをさらに改善するための,単純かつ効果的なノイズトレーニング戦略を提案する。
学習中にパラメータ空間にランダムノイズを導入することにより,より一般化した収束時のスムースモデルを生成することができる。
我々は,高密度かつスパースなEmformerモデルの改良と,一貫したWER削減の観測に雑音学習を適用した。
具体的には、90%の間隔でEmformerをトレーニングする場合、それぞれ12%と14%のWER改善をLibriSpeech Test-otherとTest-cleanデータセットで達成します。
関連論文リスト
- MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization [49.00754561435518]
MSRSは、RS3ベンチマークで21.1%と0.9%のWERでVSRとAVSRの競争結果を達成し、トレーニング時間を少なくとも2倍に短縮した。
我々は、他のスパースアプローチを探索し、MSRSだけが、消失する勾配によって影響を受ける重量を暗黙的に隠蔽することで、スクラッチからトレーニングできることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:00:43Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - A Likelihood Ratio based Domain Adaptation Method for E2E Models [10.510472957585646]
Recurrent Neural Networks Transducer (RNN-T)のようなエンドツーエンド(E2E)自動音声認識モデルは、音声アシスタントのようなASRアプリケーションをストリーミングするための一般的な選択肢になりつつある。
E2Eモデルはトレーニング対象のトレーニングデータの表現を学習するのに非常に効果的だが、未確認領域での精度は依然として難しい問題である。
本研究では、テキストデータソースを活用してRNN-Tモデルを新しいドメインやエンティティに適用する、確率比を用いたコンテキストバイアス手法について検討する。
論文 参考訳(メタデータ) (2022-01-10T21:22:39Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - SynthASR: Unlocking Synthetic Data for Speech Recognition [15.292920497489925]
そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
論文 参考訳(メタデータ) (2021-06-14T23:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。