論文の概要: Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data
- arxiv url: http://arxiv.org/abs/2205.15370v1
- Date: Mon, 30 May 2022 18:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 15:16:15.425076
- Title: Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data
- Title(参考訳): Guided-TTS 2:非転写データを用いた高品質適応音声の拡散モデル
- Authors: Sungwon Kim, Heeseung Kim and Sungroh Yoon
- Abstract要約: 非転写データを用いた高品質適応型TSのための拡散モデルである Guided-TTS 2 を提案する。
我々は,大規模無転写データセット上で話者条件拡散モデルを訓練し,分類器フリーガイダンス法を提案する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TTSベースラインに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 25.709370310448328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Guided-TTS 2, a diffusion-based generative model for high-quality
adaptive TTS using untranscribed data. Guided-TTS 2 combines a
speaker-conditional diffusion model with a speaker-dependent phoneme classifier
for adaptive text-to-speech. We train the speaker-conditional diffusion model
on large-scale untranscribed datasets for a classifier-free guidance method and
further fine-tune the diffusion model on the reference speech of the target
speaker for adaptation, which only takes 40 seconds. We demonstrate that
Guided-TTS 2 shows comparable performance to high-quality single-speaker TTS
baselines in terms of speech quality and speaker similarity with only a
ten-second untranscribed data. We further show that Guided-TTS 2 outperforms
adaptive TTS baselines on multi-speaker datasets even with a zero-shot
adaptation setting. Guided-TTS 2 can adapt to a wide range of voices only using
untranscribed speech, which enables adaptive TTS with the voice of non-human
characters such as Gollum in \textit{"The Lord of the Rings"}.
- Abstract(参考訳): 非転写データを用いた高品質適応TSのための拡散モデルである Guided-TTS 2 を提案する。
Guided-TTS 2は、話者条件拡散モデルと適応テキスト音声のための話者依存音素分類器を組み合わせる。
本研究では, 大規模無転写データセット上での話者条件拡散モデルを訓練し, さらに, 40秒で対応可能なターゲット話者の参照音声上での拡散モデルを微調整する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TSベースラインに匹敵する性能を示した。
Guided-TTS 2は、ゼロショット適応設定でも、マルチ話者データセット上で適応的TSベースラインより優れていることを示す。
Guided-TTS 2は、転写されていない音声のみを使用して幅広い声に適応できるため、Gollum in \textit{"The Lord of the Rings"} のような非人間的文字の音声で適応TTSを可能にする。
関連論文リスト
- DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。