論文の概要: Towards High-Quality Neural TTS for Low-Resource Languages by Learning
Compact Speech Representations
- arxiv url: http://arxiv.org/abs/2210.15131v1
- Date: Thu, 27 Oct 2022 02:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:14:57.918985
- Title: Towards High-Quality Neural TTS for Low-Resource Languages by Learning
Compact Speech Representations
- Title(参考訳): コンパクト音声表現学習による低リソース言語のための高品質ニューラルネットワークttsに向けて
- Authors: Haohan Guo, Fenglong Xie, Xixin Wu, Hui Lu, Helen Meng
- Abstract要約: 本稿では、コンパクトな音声表現を用いた訓練データ要求を低減し、低リソースのTSを強化することを目的とする。
Multi-Stage Multi-Codebook (MSMC) VQ-GANは、MSMCRを学習し、それを波形に復号するために訓練される。
低リソース言語でMSMCRを学習するために、より多くのオーディオを活用することで、トレーニング戦略を最適化する。
- 参考スコア(独自算出の注目度): 43.31594896204752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to enhance low-resource TTS by reducing training data
requirements using compact speech representations. A Multi-Stage Multi-Codebook
(MSMC) VQ-GAN is trained to learn the representation, MSMCR, and decode it to
waveforms. Subsequently, we train the multi-stage predictor to predict MSMCRs
from the text for TTS synthesis. Moreover, we optimize the training strategy by
leveraging more audio to learn MSMCRs better for low-resource languages. It
selects audio from other languages using speaker similarity metric to augment
the training set, and applies transfer learning to improve training quality. In
MOS tests, the proposed system significantly outperforms FastSpeech and VITS in
standard and low-resource scenarios, showing lower data requirements. The
proposed training strategy effectively enhances MSMCRs on waveform
reconstruction. It improves TTS performance further, which wins 77% votes in
the preference test for the low-resource TTS with only 15 minutes of paired
data.
- Abstract(参考訳): 本稿では,コンパクトな音声表現を用いた学習データ要求を削減し,低リソースttsの向上を目指す。
Multi-Stage Multi-Codebook (MSMC) VQ-GANは、MSMCRを学習し、それを波形に復号するために訓練される。
その後、マルチステージ予測器をトレーニングし、テキストからMSMCRを予測し、TS合成を行う。
さらに,MSMCRを低リソース言語で学習するために,より多くのオーディオを活用することで,トレーニング戦略を最適化する。
話者類似度測定を用いて他の言語から音声を選択してトレーニングセットを増強し、伝達学習を適用してトレーニング品質を向上させる。
MOSテストでは、提案システムは標準および低リソースシナリオにおいてFastSpeechとVITSを著しく上回り、低いデータ要求を示す。
提案したトレーニング戦略は、波形再構成におけるMSMCRを効果的に強化する。
TTSのパフォーマンスをさらに改善し、ペアデータのわずか15分で、低リソースのTSの選好テストで77%の票を獲得した。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via
Vector-Quantized Self-Supervised Speech Representation Learning [65.35080911787882]
本稿では、教師付きデータ要求の少ないTS品質を実現するための、新しい半教師付きTSフレームワークQS-TTSを提案する。
2つのVQ-S3R学習者は、TSのための有益な音声表現と事前訓練されたモデルを提供する。
その結果、QS-TTSの優れた性能を示し、教師付きまたは半教師付きベースラインTSアプローチよりも最高のMOSを獲得した。
論文 参考訳(メタデータ) (2023-08-31T20:25:44Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - When Is TTS Augmentation Through a Pivot Language Useful? [26.084140117526488]
我々は,高出力のピボット言語のための訓練されたTSシステムを用いて,ターゲット言語からテキストを実行することによって,合成音声を生成することを提案する。
数千の合成TSテキスト音声ペアを使用し、実際のデータを複製して最適な結果を得る。
これらの発見の応用は、2つの低リソース言語に対してそれぞれ64.5%と45.0%の文字誤り低減率(CERR)を改善する。
論文 参考訳(メタデータ) (2022-07-20T13:33:41Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。