論文の概要: LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition
- arxiv url: http://arxiv.org/abs/2008.03687v1
- Date: Sun, 9 Aug 2020 08:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:08:26.799001
- Title: LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition
- Title(参考訳): LRSpeech: 極低リソース音声合成と認識
- Authors: Jin Xu, Xu Tan, Yi Ren, Tao Qin, Jian Li, Sheng Zhao, Tie-Yan Liu
- Abstract要約: データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
- 参考スコア(独自算出の注目度): 148.43282526983637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech synthesis (text to speech, TTS) and recognition (automatic speech
recognition, ASR) are important speech tasks, and require a large amount of
text and speech pairs for model training. However, there are more than 6,000
languages in the world and most languages are lack of speech training data,
which poses significant challenges when building TTS and ASR systems for
extremely low-resource languages. In this paper, we develop LRSpeech, a TTS and
ASR system under the extremely low-resource setting, which can support rare
languages with low data cost. LRSpeech consists of three key techniques: 1)
pre-training on rich-resource languages and fine-tuning on low-resource
languages; 2) dual transformation between TTS and ASR to iteratively boost the
accuracy of each other; 3) knowledge distillation to customize the TTS model on
a high-quality target-speaker voice and improve the ASR model on multiple
voices. We conduct experiments on an experimental language (English) and a
truly low-resource language (Lithuanian) to verify the effectiveness of
LRSpeech. Experimental results show that LRSpeech 1) achieves high quality for
TTS in terms of both intelligibility (more than 98% intelligibility rate) and
naturalness (above 3.5 mean opinion score (MOS)) of the synthesized speech,
which satisfy the requirements for industrial deployment, 2) achieves promising
recognition accuracy for ASR, and 3) last but not least, uses extremely
low-resource training data. We also conduct comprehensive analyses on LRSpeech
with different amounts of data resources, and provide valuable insights and
guidances for industrial deployment. We are currently deploying LRSpeech into a
commercialized cloud speech service to support TTS on more rare languages.
- Abstract(参考訳): 音声合成(text to speech, tts)と音声認識(automatic speech recognition, asr)は重要な音声課題であり、モデル学習のために大量のテキストと音声ペアを必要とする。
しかし、世界には6,000以上の言語があり、ほとんどの言語は音声訓練データがないため、極低リソース言語向けにTSやASRシステムを構築する際には大きな課題が生じる。
本稿では,データコストの低いレア言語をサポート可能な,低リソース環境下でのTLS/ASRシステムであるLSpeechを開発する。
LRSpeechは3つの重要な技術から構成される。
1)リッチリソース言語の事前学習と低リソース言語の微調整
2) TTS と ASR の二重変換は,相互の精度を反復的に向上させる。
3)ttsモデルを高品質な目標話者音声でカスタマイズし,複数声のasrモデルを改善するための知識蒸留法
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
LRSpeechの実験結果
1) 産業展開の要件を満たす合成音声の知性(98%以上)と自然性(3.5 平均意見スコア(mos))の両方において,ttsの高品質を実現する。
2)asrの有望な認識精度を達成し、
3) 最後に、非常に低いリソースのトレーニングデータを使用します。
また,LRSpeechをさまざまな量のデータ資源で包括的に分析し,産業展開のための貴重な洞察とガイダンスを提供する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
関連論文リスト
- ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams [16.172599163455693]
言語や地理的に関連のある言語からの高品質なデータを活用して、ターゲット言語のためのTSを改善する。
第2に,非スタディオ環境で記録された低品質自動音声認識(ASR)データを利用する。
第3に、より堅牢な出力を生成するために、合成データを用いた大規模モデルからの知識蒸留を適用する。
論文 参考訳(メタデータ) (2024-10-23T14:18:25Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。
数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。
これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文 参考訳(メタデータ) (2022-07-20T13:33:41Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。