論文の概要: When Is TTS Augmentation Through a Pivot Language Useful?
- arxiv url: http://arxiv.org/abs/2207.09889v1
- Date: Wed, 20 Jul 2022 13:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 14:00:36.216227
- Title: When Is TTS Augmentation Through a Pivot Language Useful?
- Title(参考訳): Pivot言語によるTTS拡張はいつ有効か?
- Authors: Nathaniel Robinson, Perez Ogayo, Swetha Gangu, David R. Mortensen,
Shinji Watanabe
- Abstract要約: 我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。
数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。
これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
- 参考スコア(独自算出の注目度): 26.084140117526488
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Developing Automatic Speech Recognition (ASR) for low-resource languages is a
challenge due to the small amount of transcribed audio data. For many such
languages, audio and text are available separately, but not audio with
transcriptions. Using text, speech can be synthetically produced via
text-to-speech (TTS) systems. However, many low-resource languages do not have
quality TTS systems either. We propose an alternative: produce synthetic audio
by running text from the target language through a trained TTS system for a
higher-resource pivot language. We investigate when and how this technique is
most effective in low-resource settings. In our experiments, using several
thousand synthetic TTS text-speech pairs and duplicating authentic data to
balance yields optimal results. Our findings suggest that searching over a set
of candidate pivot languages can lead to marginal improvements and that,
surprisingly, ASR performance can by harmed by increases in measured TTS
quality. Application of these findings improves ASR by 64.5\% and 45.0\%
character error reduction rate (CERR) respectively for two low-resource
languages: Guaran\'i and Suba.
- Abstract(参考訳): 低リソース言語のための自動音声認識(asr)の開発は、少量の書き起こし音声データによる課題である。
多くの言語では、音声とテキストは別々に利用できるが、音声の書き起こしはできない。
テキストを使用すると、音声はTTS(text-to-speech)システムを介して合成することができる。
しかし、多くの低リソース言語は品質のttsシステムを持っていない。
我々は,高資源ピボット言語のための訓練されたttsシステムを通じて,対象言語からテキストを実行して合成音声を生成する方法を提案する。
我々は,この手法が低リソース環境において最も効果的である時期と方法を検討する。
実験では,数千の合成TSテキスト音声ペアを用いて,実データから最適な結果を得ることができた。
以上の結果から,ピボット言語候補の探索は限界的な改善につながる可能性があり,驚くべきことに,asrの性能はtts品質の上昇によって損なわれる可能性があることが示唆された。
これらの結果の応用により,ASR は 64.5\% と 45.0\% の文字誤り低減率 (CERR) を低リソース言語である Guaran\'i と Suba に対してそれぞれ改善する。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。