論文の概要: SynthASR: Unlocking Synthetic Data for Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.07803v1
- Date: Mon, 14 Jun 2021 23:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 14:56:00.003732
- Title: SynthASR: Unlocking Synthetic Data for Speech Recognition
- Title(参考訳): SynthASR:音声認識のための合成データのロック解除
- Authors: Amin Fazel, Wei Yang, Yulan Liu, Roberto Barra-Chicote, Yixiong Meng,
Roland Maas, Jasha Droppo
- Abstract要約: そこで本研究では,ASRモデルトレーニングのためのデータが少ない,あるいは取得が困難なアプリケーションにおいて,合成音声をASRトレーニング(SynthASR)に活用することを提案する。
薬物名認識のための新しい応用のための社内データセットを用いて実験を行ったところ、合成音声を用いたASR RNN-Tモデルのトレーニングにより、新しいアプリケーションの認識性能が65%以上向上した。
- 参考スコア(独自算出の注目度): 15.292920497489925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) automatic speech recognition (ASR) models have recently
demonstrated superior performance over the traditional hybrid ASR models.
Training an E2E ASR model requires a large amount of data which is not only
expensive but may also raise dependency on production data. At the same time,
synthetic speech generated by the state-of-the-art text-to-speech (TTS) engines
has advanced to near-human naturalness. In this work, we propose to utilize
synthetic speech for ASR training (SynthASR) in applications where data is
sparse or hard to get for ASR model training. In addition, we apply continual
learning with a novel multi-stage training strategy to address catastrophic
forgetting, achieved by a mix of weighted multi-style training, data
augmentation, encoder freezing, and parameter regularization. In our
experiments conducted on in-house datasets for a new application of recognizing
medication names, training ASR RNN-T models with synthetic audio via the
proposed multi-stage training improved the recognition performance on new
application by more than 65% relative, without degradation on existing general
applications. Our observations show that SynthASR holds great promise in
training the state-of-the-art large-scale E2E ASR models for new applications
while reducing the costs and dependency on production data.
- Abstract(参考訳): エンドツーエンド(E2E)自動音声認識(ASR)モデルは,近年,従来のハイブリッドASRモデルよりも優れた性能を示している。
E2E ASRモデルのトレーニングには大量のデータが必要である。
同時に、最先端のテキスト音声(TTS)エンジンによって生成された合成音声は、ほぼ人間に近い自然に進化した。
そこで本研究では,ASRモデルトレーニングのためのデータ不足や取得が困難なアプリケーションにおいて,合成音声を用いたASRトレーニング(SynthASR)を提案する。
さらに,重み付きマルチスタイルのトレーニング,データ拡張,エンコーダの凍結,パラメータの規則化を組み合わせることで得られる,破滅的な忘れ方に対処するために,連続学習を新しい多段階学習戦略に適用する。
医薬名認識のための新しい応用のための社内データセットを用いて, 提案した多段階学習により, ASR RNN-Tモデルを合成音声で訓練することにより, 既存の一般応用を劣化させることなく, 新規アプリケーションの認識性能を65%以上向上した。
我々の観察では、SynthASRは、新しいアプリケーションのための最先端の大規模E2E ASRモデルのトレーニングにおいて、コストと生産データへの依存性を低減しつつ、大きな可能性を秘めている。
関連論文リスト
- On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Noisy Training Improves E2E ASR for the Edge [22.91184103295888]
音声認識(ASR)は現代のエッジデバイスでますます普及している。
E2E ASRモデルは過度に適合する傾向があり、見えないテストデータの一般化には困難である。
本稿では,E2E ASRモデルトレーニングをさらに改善するための,シンプルで効果的な雑音訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-07-09T20:56:20Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。