論文の概要: Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus
- arxiv url: http://arxiv.org/abs/2203.15447v1
- Date: Tue, 29 Mar 2022 11:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:29:32.094040
- Title: Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus
- Title(参考訳): 大規模未ラベル音声コーパスを用いた低音源テキスト音声の転送学習フレームワーク
- Authors: Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Sunghwan Ahn, Joun Yeop
Lee, Nam Soo Kim
- Abstract要約: テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.158584616360669
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training a text-to-speech (TTS) model requires a large scale text labeled
speech corpus, which is troublesome to collect. In this paper, we propose a
transfer learning framework for TTS that utilizes a large amount of unlabeled
speech dataset for pre-training. By leveraging wav2vec2.0 representation,
unlabeled speech can highly improve performance, especially in the lack of
labeled speech. We also extend the proposed method to zero-shot multi-speaker
TTS (ZS-TTS). The experimental results verify the effectiveness of the proposed
method in terms of naturalness, intelligibility, and speaker generalization. We
highlight that the single speaker TTS model fine-tuned on the only 10 minutes
of labeled dataset outperforms the other baselines, and the ZS-TTS model
fine-tuned on the only 30 minutes of single speaker dataset can generate the
voice of the arbitrary speaker, by pre-training on unlabeled multi-speaker
speech corpus.
- Abstract(参考訳): テキスト音声(TTS)モデルを訓練するには,大規模なテキストラベル付き音声コーパスが必要である。
本稿では,事前学習に大量のラベル付き音声データセットを利用するTSの転送学習フレームワークを提案する。
wav2vec2.0表現を利用することで、ラベルなし音声は、特にラベル付き音声の欠如において、高い性能を向上させることができる。
また,提案手法をゼロショットマルチスピーカTS(ZS-TTS)に拡張する。
実験により,提案手法の有効性を,自然性,知性,話者一般化の観点から検証した。
ラベル付きデータセットの10分で微調整された単一話者TSモデルは、他のベースラインよりも優れており、ZS-TTSモデルでは、ラベルなしマルチスピーカ音声コーパスで事前学習することで、わずか30分で任意の話者の声を生成することができる。
関連論文リスト
- DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。
Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文 参考訳(メタデータ) (2024-06-13T05:23:22Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。