論文の概要: Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2407.04047v1
- Date: Thu, 4 Jul 2024 16:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:23:59.654800
- Title: Improving Accented Speech Recognition using Data Augmentation based on Unsupervised Text-to-Speech Synthesis
- Title(参考訳): 教師なし音声合成に基づくデータ拡張によるアクセント音声認識の改善
- Authors: Cong-Thanh Do, Shuhei Imai, Rama Doddipatla, Thomas Hain,
- Abstract要約: 本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データとそれらの擬似ラベルで訓練される。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
- 参考スコア(独自算出の注目度): 30.97784092953007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the use of unsupervised text-to-speech synthesis (TTS) as a data augmentation method to improve accented speech recognition. TTS systems are trained with a small amount of accented speech training data and their pseudo-labels rather than manual transcriptions, and hence unsupervised. This approach enables the use of accented speech data without manual transcriptions to perform data augmentation for accented speech recognition. Synthetic accented speech data, generated from text prompts by using the TTS systems, are then combined with available non-accented speech data to train automatic speech recognition (ASR) systems. ASR experiments are performed in a self-supervised learning framework using a Wav2vec2.0 model which was pre-trained on large amount of unsupervised accented speech data. The accented speech data for training the unsupervised TTS are read speech, selected from L2-ARCTIC and British Isles corpora, while spontaneous conversational speech from the Edinburgh international accents of English corpus are used as the evaluation data. Experimental results show that Wav2vec2.0 models which are fine-tuned to downstream ASR task with synthetic accented speech data, generated by the unsupervised TTS, yield up to 6.1% relative word error rate reductions compared to a Wav2vec2.0 baseline which is fine-tuned with the non-accented speech data from Librispeech corpus.
- Abstract(参考訳): 本稿では、アクセント付き音声認識を改善するためのデータ拡張手法として、教師なし音声合成(TTS)の使用について検討する。
TTSシステムは、手書き文字起こしではなく、少量のアクセント付き音声訓練データと擬似ラベルで訓練されており、教師なしである。
この手法により,アクセント付き音声認識のためのデータ拡張を行うために,手書きの書き起こしを伴わないアクセント付き音声データを使用することが可能である。
TTSシステムを用いてテキストプロンプトから生成された合成アクセント音声データを、利用可能な非アクセント音声データと組み合わせて自動音声認識(ASR)システムの訓練を行う。
ASR実験は、大量の教師なしアクセント付き音声データに基づいて事前訓練されたWav2vec2.0モデルを用いて、自己教師付き学習フレームワークで実施される。
教師なしTSを訓練するためのアクセント付き音声データは、L2−ARCTICとBritish Isles corporaから選択された読み上げ音声であり、また、英語コーパスのエディンバラ国際アクセントからの自発的な会話音声が評価データとして使用される。
実験結果から, 教師なしTTSが生成した合成アクセント音声データを用いて, 下流ASRタスクに微調整した Wav2vec2.0 モデルは, Librispeech corpus の非アクセント音声データと微調整した Wav2vec2.0 ベースラインと比較して, 最大6.1% の単語誤り率の低減が得られることがわかった。
関連論文リスト
- Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。