論文の概要: Guided-TTS:Text-to-Speech with Untranscribed Speech
- arxiv url: http://arxiv.org/abs/2111.11755v1
- Date: Tue, 23 Nov 2021 10:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 15:59:51.149711
- Title: Guided-TTS:Text-to-Speech with Untranscribed Speech
- Title(参考訳): Guided-TTS:非転写音声によるテキスト音声合成
- Authors: Heeseung Kim, Sungwon Kim, Sungroh Yoon
- Abstract要約: 我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
- 参考スコア(独自算出の注目度): 22.548875263927396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most neural text-to-speech (TTS) models require <speech, transcript> paired
data from the desired speaker for high-quality speech synthesis, which limits
the usage of large amounts of untranscribed data for training. In this work, we
present Guided-TTS, a high-quality TTS model that learns to generate speech
from untranscribed speech data. Guided-TTS combines an unconditional diffusion
probabilistic model with a separately trained phoneme classifier for
text-to-speech. By modeling the unconditional distribution for speech, our
model can utilize the untranscribed data for training. For text-to-speech
synthesis, we guide the generative process of the unconditional DDPM via
phoneme classification to produce mel-spectrograms from the conditional
distribution given transcript. We show that Guided-TTS achieves comparable
performance with the existing methods without any transcript for LJSpeech. Our
results further show that a single speaker-dependent phoneme classifier trained
on multispeaker large-scale data can guide unconditional DDPMs for various
speakers to perform TTS.
- Abstract(参考訳): ほとんどのニューラルテキスト音声合成(TTS)モデルは、高品質な音声合成のために、所望の話者から<speech, transcript>ペアデータを必要とする。
本稿では,音声データから音声を生成するための高品質ttsモデルであるガイド付きttsについて述べる。
Guided-TTSは、非条件拡散確率モデルと個別に訓練された音素分類器を組み合わせる。
音声の非条件分布をモデル化することにより、未転写データをトレーニングに利用することができる。
テキストから音声への合成には,音素分類による無条件ddpmの生成過程を指導し,条件分布からメルスペクトログラムを生成する。
Guided-TTS は LJSpeech の書き起こしなしで既存のメソッドと同等の性能を発揮することを示す。
さらに,マルチ話者大規模データに基づいて学習した1つの話者依存音素分類器は,様々な話者がTSを行うための無条件DDPMを誘導できることを示した。
関連論文リスト
- Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech
with Untranscribed Data [25.709370310448328]
非転写データを用いた高品質適応型TSのための拡散モデルである Guided-TTS 2 を提案する。
我々は,大規模無転写データセット上で話者条件拡散モデルを訓練し,分類器フリーガイダンス法を提案する。
Guided-TTS 2は、音声品質と話者類似性の観点から、高品質な単一話者TTSベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-05-30T18:30:20Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。