論文の概要: QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via
Vector-Quantized Self-Supervised Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2309.00126v1
- Date: Thu, 31 Aug 2023 20:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 15:22:57.881292
- Title: QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via
Vector-Quantized Self-Supervised Speech Representation Learning
- Title(参考訳): QS-TTS:ベクトル量子化された自己教師付き音声表現学習による半教師付きテキスト音声合成を目指して
- Authors: Haohan Guo, Fenglong Xie, Jiawen Kang, Yujia Xiao, Xixin Wu, Helen
Meng
- Abstract要約: 本稿では、教師付きデータ要求の少ないTS品質を実現するための、新しい半教師付きTSフレームワークQS-TTSを提案する。
2つのVQ-S3R学習者は、TSのための有益な音声表現と事前訓練されたモデルを提供する。
その結果、QS-TTSの優れた性能を示し、教師付きまたは半教師付きベースラインTSアプローチよりも最高のMOSを獲得した。
- 参考スコア(独自算出の注目度): 65.35080911787882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel semi-supervised TTS framework, QS-TTS, to improve
TTS quality with lower supervised data requirements via Vector-Quantized
Self-Supervised Speech Representation Learning (VQ-S3RL) utilizing more
unlabeled speech audio. This framework comprises two VQ-S3R learners: first,
the principal learner aims to provide a generative Multi-Stage Multi-Codebook
(MSMC) VQ-S3R via the MSMC-VQ-GAN combined with the contrastive S3RL, while
decoding it back to the high-quality audio; then, the associate learner further
abstracts the MSMC representation into a highly-compact VQ representation
through a VQ-VAE. These two generative VQ-S3R learners provide profitable
speech representations and pre-trained models for TTS, significantly improving
synthesis quality with the lower requirement for supervised data. QS-TTS is
evaluated comprehensively under various scenarios via subjective and objective
tests in experiments. The results powerfully demonstrate the superior
performance of QS-TTS, winning the highest MOS over supervised or
semi-supervised baseline TTS approaches, especially in low-resource scenarios.
Moreover, comparing various speech representations and transfer learning
methods in TTS further validates the notable improvement of the proposed
VQ-S3RL to TTS, showing the best audio quality and intelligibility metrics. The
trend of slower decay in the synthesis quality of QS-TTS with decreasing
supervised data further highlights its lower requirements for supervised data,
indicating its great potential in low-resource scenarios.
- Abstract(参考訳): 本稿では,よりラベルのない音声を用いたVector-Quantized Self-Supervised Speech Representation Learning (VQ-S3RL)による教師付きデータ要求の低減により,TS品質を向上させるための,新しい半教師付きTSフレームワークQS-TTSを提案する。
まず、主学習者は、Multi-Stage Multi-Codebook (MSMC) VQ-S3RをMSMC-VQ-GANとコントラスト付きS3RLと組み合わせて提供し、それを高品質なオーディオに復号し、さらに、VQ-VAEを介してMSMC表現を高度にコンパクトなVQ表現に抽象化する。
これら2つの生成型VQ-S3R学習者は、TSのための有益な音声表現と事前学習モデルを提供し、教師付きデータに対する低要求で合成品質を大幅に改善する。
qs-ttsは実験において主観的および客観的なテストを通して様々なシナリオで総合的に評価される。
その結果、QS-TTSの優れた性能を示し、特に低リソースシナリオにおいて、教師付きまたは半教師付きベースラインTSアプローチよりも最高のMOSを獲得した。
さらに、TTSにおける様々な音声表現と伝達学習法を比較し、提案したVQ-S3RLのTSへの顕著な改善を検証する。
教師付きデータの減少に伴うQS-TTSの合成品質の低下傾向は、教師付きデータの低要求をさらに強調し、低リソースシナリオにおけるその大きな可能性を示している。
関連論文リスト
- An Experimental Study: Assessing the Combined Framework of WavLM and
BEST-RQ for Text-to-Speech Synthesis [0.5076419064097734]
本稿では,TTS(text-to-speech)モデルに適した新しいモデルアーキテクチャを提案する。
我々は,事前訓練された自己教師付き学習(SSL)音声モデルであるWavLMと,BEST-RQベクトル量子化フレームワークを組み合わせた。
SUPERBベンチマークによるLibriSpeechデータセットの実験では、提案モデルの性能は著しく低下している。
論文 参考訳(メタデータ) (2023-12-08T23:59:25Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Towards High-Quality Neural TTS for Low-Resource Languages by Learning
Compact Speech Representations [43.31594896204752]
本稿では、コンパクトな音声表現を用いた訓練データ要求を低減し、低リソースのTSを強化することを目的とする。
Multi-Stage Multi-Codebook (MSMC) VQ-GANは、MSMCRを学習し、それを波形に復号するために訓練される。
低リソース言語でMSMCRを学習するために、より多くのオーディオを活用することで、トレーニング戦略を最適化する。
論文 参考訳(メタデータ) (2022-10-27T02:32:00Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis [21.904558308567122]
本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
論文 参考訳(メタデータ) (2020-02-28T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。