論文の概要: You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation
- arxiv url: http://arxiv.org/abs/2005.07157v2
- Date: Thu, 30 Jul 2020 20:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:38:11.332890
- Title: You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation
- Title(参考訳): 余分なデータを必要としない:テキスト音声によるエンドツーエンド音声認識の改善
- Authors: Aleksandr Laptev, Roman Korostik, Aleksey Svischev, Andrei Andrusenko,
Ivan Medennikov, Sergey Rybin
- Abstract要約: 我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
- 参考スコア(独自算出の注目度): 59.31769998728787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is one of the most effective ways to make end-to-end
automatic speech recognition (ASR) perform close to the conventional hybrid
approach, especially when dealing with low-resource tasks. Using recent
advances in speech synthesis (text-to-speech, or TTS), we build our TTS system
on an ASR training database and then extend the data with synthesized speech to
train a recognition model. We argue that, when the training data amount is
relatively low, this approach can allow an end-to-end model to reach hybrid
systems' quality. For an artificial low-to-medium-resource setup, we compare
the proposed augmentation with the semi-supervised learning technique. We also
investigate the influence of vocoder usage on final ASR performance by
comparing Griffin-Lim algorithm with our modified LPCNet. When applied with an
external language model, our approach outperforms a semi-supervised setup for
LibriSpeech test-clean and only 33% worse than a comparable supervised setup.
Our system establishes a competitive result for end-to-end ASR trained on
LibriSpeech train-clean-100 set with WER 4.3% for test-clean and 13.5% for
test-other.
- Abstract(参考訳): データ拡張は、特に低リソースタスクを扱う場合、従来のハイブリッドアプローチに近いエンドツーエンドの自動音声認識(ASR)を実現する最も効果的な方法の1つである。
近年の音声合成 (text-to-Speech, TTS) の進歩を利用して, ASR トレーニングデータベース上に TTS システムを構築し, 合成音声を用いてデータを拡張し, 音声認識モデルを訓練する。
トレーニングデータ量が比較的低い場合、このアプローチはエンドツーエンドモデルがハイブリッドシステムの品質に達することを可能にします。
低から中への人工的な資源設定について,提案手法と半教師付き学習手法を比較した。
また、Griffin-Limアルゴリズムと修正LPCNetを比較し、vocoderの使用が最終的なASR性能に与える影響についても検討した。
外部言語モデルを適用すると、LibriSpeechテストクリーンの半教師付きセットアップよりも優れ、比較可能な教師付きセットアップよりもわずか33%劣る。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
関連論文リスト
- Improving End-to-End Speech Processing by Efficient Text Data
Utilization with Latent Synthesis [17.604583337593677]
高性能エンドツーエンド音声(E2E)処理モデルの訓練には,大量のラベル付き音声データが必要となる。
E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:10:49Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Comparing the Benefit of Synthetic Training Data for Various Automatic
Speech Recognition Architectures [44.803590841664]
TTSシステムにおけるデータプリプロセッシングにおける沈黙補正の新たなアプローチを提案する。
最終単語誤り率は3.3%/10.0%で、クリーン/ノイズテストセット上でハイブリッドシステムを実現する。
論文 参考訳(メタデータ) (2021-04-12T11:59:23Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。