論文の概要: Text Generation with Speech Synthesis for ASR Data Augmentation
- arxiv url: http://arxiv.org/abs/2305.16333v1
- Date: Mon, 22 May 2023 18:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:58:26.968556
- Title: Text Generation with Speech Synthesis for ASR Data Augmentation
- Title(参考訳): ASRデータ拡張のための音声合成によるテキスト生成
- Authors: Zhuangqun Huang, Gil Keren, Ziran Jiang, Shashank Jain, David
Goss-Grubbs, Nelson Cheng, Farnaz Abtahi, Duc Le, David Zhang, Antony
D'Avirro, Ethan Campbell-Taylor, Jessie Salas, Irina-Elena Veliche, Xi Chen
- Abstract要約: 大規模事前学習ニューラルネットワークを用いた音声認識(ASR)のためのテキスト拡張について検討する。
ニューラルモデルはWERの相対的な改善を9%-15%達成し,従来の手法より優れていた。
- 参考スコア(独自算出の注目度): 17.348764629839636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming at reducing the reliance on expensive human annotations, data
synthesis for Automatic Speech Recognition (ASR) has remained an active area of
research. While prior work mainly focuses on synthetic speech generation for
ASR data augmentation, its combination with text generation methods is
considerably less explored. In this work, we explore text augmentation for ASR
using large-scale pre-trained neural networks, and systematically compare those
to traditional text augmentation methods. The generated synthetic texts are
then converted to synthetic speech using a text-to-speech (TTS) system and
added to the ASR training data. In experiments conducted on three datasets, we
find that neural models achieve 9%-15% relative WER improvement and outperform
traditional methods. We conclude that text augmentation, particularly through
modern neural approaches, is a viable tool for improving the accuracy of ASR
systems.
- Abstract(参考訳): 高価な人的アノテーションへの依存を減らすことを目的として,ASR(Automatic Speech Recognition)のデータ合成が研究の活発な領域である。
先行研究は主にASRデータ拡張のための合成音声生成に焦点が当てられていたが、テキスト生成手法との組合せは明らかに研究されていない。
本研究では,大規模事前学習ニューラルネットワークを用いてasrのテキスト拡張を探索し,従来のテキスト拡張手法と比較した。
生成された合成テキストは、テキスト音声(TTS)システムを用いて合成音声に変換し、ASRトレーニングデータに追加する。
3つのデータセットで行った実験で、ニューラルモデルが従来の手法を9%~15%上回る改善を達成していることがわかった。
結論として, テキスト拡張は, 現代のニューラルアプローチによってasrシステムの精度を向上させる上で有効なツールである。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures [19.823015917720284]
音声認識学習における合成データの有用性について検討する。
我々は、元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。
トレーニングスコアが過度な適合を示す場合であっても,TTSモデルの一般化は良好であることを示す。
論文 参考訳(メタデータ) (2024-07-25T12:44:45Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Towards Selection of Text-to-speech Data to Augment ASR Training [20.115236045164355]
ニューラルネットワークをトレーニングして、合成データの実際の音声との類似性を計測する。
音声認識性能を高めるためには, 実音声とはかなりの相似性を持つ合成サンプルを組み込むことが重要である。
論文 参考訳(メタデータ) (2023-05-30T17:24:28Z) - Text-To-Speech Data Augmentation for Low Resource Speech Recognition [0.0]
本研究では,ASRモデルの改良を目的としたデータ拡張手法を提案する。
ケチュア語のコーパスを用いて実験を行った。
ASRモデルの単語誤り率(WER)の8.73%の改善は、合成テキストと合成音声の組み合わせを用いて得られる。
論文 参考訳(メタデータ) (2022-04-01T08:53:44Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。