論文の概要: Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE
- arxiv url: http://arxiv.org/abs/2206.02512v4
- Date: Sun, 06 Oct 2024 20:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:29.151388
- Title: Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE
- Title(参考訳): 条件付き不整合列VAEを用いたTSの非教師付きTS音響モデル
- Authors: Jiachen Lian, Chunlei Zhang, Gopala Krishna Anumanchipalli, Dong Yu,
- Abstract要約: 本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
- 参考スコア(独自算出の注目度): 36.50265124324876
- License:
- Abstract: In this paper, we propose a novel unsupervised text-to-speech acoustic model training scheme, named UTTS, which does not require text-audio pairs. UTTS is a multi-speaker speech synthesizer that supports zero-shot voice cloning, it is developed from a perspective of disentangled speech representation learning. The framework offers a flexible choice of a speaker's duration model, timbre feature (identity) and content for TTS inference. We leverage recent advancements in self-supervised speech representation learning as well as speech synthesis front-end techniques for system development. Specifically, we employ our recently formulated Conditional Disentangled Sequential Variational Auto-encoder (C-DSVAE) as the backbone UTTS AM, which offers well-structured content representations given unsupervised alignment (UA) as condition during training. For UTTS inference, we utilize a lexicon to map input text to the phoneme sequence, which is expanded to the frame-level forced alignment (FA) with a speaker-dependent duration model. Then, we develop an alignment mapping module that converts FA to UA. Finally, the C-DSVAE, serving as the self-supervised TTS AM, takes the predicted UA and a target speaker embedding to generate the mel spectrogram, which is ultimately converted to waveform with a neural vocoder. We show how our method enables speech synthesis without using a paired TTS corpus in AM development stage. Experiments demonstrate that UTTS can synthesize speech of high naturalness and intelligibility measured by human and objective evaluations. Audio samples are available at our demo page https://neurtts.github.io/utts\_demo/.
- Abstract(参考訳): 本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
UTTSはゼロショット音声クローニングをサポートするマルチスピーカ音声合成装置であり,非交叉音声表現学習の観点から開発されている。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
近年の自己教師型音声表現学習の進歩と,システム開発のための音声合成フロントエンド技術を活用している。
具体的には、最近定式化されたC-DSVAE(Conditional Disentangled Sequential Variational Auto-Encoder)をバックボーンUTTS AMとして使用し、トレーニング中の条件として、教師なしアライメント(UA)を条件として、よく構造化されたコンテンツ表現を提供する。
UTTS推論では,入力テキストを音素列にマッピングするレキシコンを用いて,話者依存時間モデルを用いてフレームレベル強制アライメント(FA)に拡張する。
そこで我々はFAをUAに変換するアライメントマッピングモジュールを開発した。
最後に、自己教師型TS AMとして機能するC-DSVAEは、予測されたUAとターゲット話者を埋め込み、メルスペクトルを生成し、最終的にはニューラルボコーダで波形に変換する。
本稿では, AM 発達段階において, ペア TTS コーパスを使わずに音声合成を実現する方法について述べる。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
オーディオサンプルは、我々のデモページ https://neurts.github.io/utts\_demo/ で入手できる。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Into-TTS : Intonation Template based Prosody Control System [17.68906373821669]
イントネーションは、話者の意図を伝える上で重要な役割を果たす。
現在のエンドツーエンドTSシステムは、適切なイントネーションをモデル化できないことが多い。
そこで我々は,異なる音調で音声を合成する,新しい直感的な手法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:37:19Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。