論文の概要: Text-To-Speech Data Augmentation for Low Resource Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.00291v1
- Date: Fri, 1 Apr 2022 08:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:33:03.781633
- Title: Text-To-Speech Data Augmentation for Low Resource Speech Recognition
- Title(参考訳): 低リソース音声認識のためのテキスト音声データ拡張
- Authors: Rodolfo Zevallos
- Abstract要約: 本研究では,ASRモデルの改良を目的としたデータ拡張手法を提案する。
ケチュア語のコーパスを用いて実験を行った。
ASRモデルの単語誤り率(WER)の8.73%の改善は、合成テキストと合成音声の組み合わせを用いて得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Nowadays, the main problem of deep learning techniques used in the
development of automatic speech recognition (ASR) models is the lack of
transcribed data. The goal of this research is to propose a new data
augmentation method to improve ASR models for agglutinative and low-resource
languages. This novel data augmentation method generates both synthetic text
and synthetic audio. Some experiments were conducted using the corpus of the
Quechua language, which is an agglutinative and low-resource language. In this
study, a sequence-to-sequence (seq2seq) model was applied to generate synthetic
text, in addition to generating synthetic speech using a text-to-speech (TTS)
model for Quechua. The results show that the new data augmentation method works
well to improve the ASR model for Quechua. In this research, an 8.73%
improvement in the word-error-rate (WER) of the ASR model is obtained using a
combination of synthetic text and synthetic speech.
- Abstract(参考訳): 近年,自動音声認識(ASR)モデルの開発に用いられているディープラーニング技術の主な問題は,転写データの欠如である。
本研究の目的は、集約型および低リソース言語のためのASRモデルを改善するための新しいデータ拡張手法を提案することである。
この新規データ拡張方法は、合成テキストと合成音声の両方を生成する。
凝集的かつ低資源言語であるケチュア語のコーパスを用いていくつかの実験を行った。
本研究では,Cechuaの音声合成モデルを用いた合成音声生成に加えて,シーケンス・トゥ・シーケンス(seq2seq)モデルを適用して合成テキストを生成する。
その結果,新しいデータ拡張手法は,ケチュアのASRモデルを改善するのに有効であることがわかった。
本研究では,合成テキストと合成音声の組み合わせを用いて,ASRモデルの単語誤り率(WER)を8.73%改善した。
関連論文リスト
- Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - Text Generation with Speech Synthesis for ASR Data Augmentation [17.348764629839636]
大規模事前学習ニューラルネットワークを用いた音声認識(ASR)のためのテキスト拡張について検討する。
ニューラルモデルはWERの相対的な改善を9%-15%達成し,従来の手法より優れていた。
論文 参考訳(メタデータ) (2023-05-22T18:45:20Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - Distribution augmentation for low-resource expressive text-to-speech [18.553812159109253]
本稿では,TTS(text-to-speech)のための新しいデータ拡張手法を提案する。
追加データを必要とすることなく、新たな(テキスト、オーディオ)トレーニング例を生成することができる。
論文 参考訳(メタデータ) (2022-02-13T21:19:31Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。