論文の概要: UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder
- arxiv url: http://arxiv.org/abs/2206.02512v2
- Date: Tue, 7 Jun 2022 01:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 12:36:47.004355
- Title: UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder
- Title(参考訳): UTTS:条件付き乱数変分自動エンコーダを用いた教師なしTS
- Authors: Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and
Dong Yu
- Abstract要約: TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない、教師なし音声合成(UTTS)フレームワークを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
- 参考スコア(独自算出の注目度): 30.376259456529368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel unsupervised text-to-speech (UTTS)
framework which does not require text-audio pairs for the TTS acoustic modeling
(AM). UTTS is a multi-speaker speech synthesizer developed from the perspective
of disentangled speech representation learning. The framework offers a flexible
choice of a speaker's duration model, timbre feature (identity) and content for
TTS inference. We leverage recent advancements in self-supervised speech
representation learning as well as speech synthesis front-end techniques for
the system development. Specifically, we utilize a lexicon to map input text to
the phoneme sequence, which is expanded to the frame-level forced alignment
(FA) with a speaker-dependent duration model. Then, we develop an alignment
mapping module that converts the FA to the unsupervised alignment (UA).
Finally, a Conditional Disentangled Sequential Variational Auto-encoder
(C-DSVAE), serving as the self-supervised TTS AM, takes the predicted UA and a
target speaker embedding to generate the mel spectrogram, which is ultimately
converted to waveform with a neural vocoder. We show how our method enables
speech synthesis without using a paired TTS corpus. Experiments demonstrate
that UTTS can synthesize speech of high naturalness and intelligibility
measured by human and objective evaluations.
- Abstract(参考訳): 本稿では,TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない,教師なし音声合成(UTTS)フレームワークを提案する。
UTTSは、アンタングル表現学習の観点から開発された多話者音声合成器である。
このフレームワークは話者の持続時間モデル、音色特徴(identity)、tts推論のためのコンテンツの柔軟な選択を提供する。
近年の自己教師型音声表現学習の進歩と,システム開発のための音声合成フロントエンド技術を活用している。
具体的には,入力テキストを音素列にマッピングするレキシコンを用いて,フレームレベル強制アライメント(fa)に話者依存の持続時間モデルで拡張する。
次に,faを教師なしアライメント(ua)に変換するアライメントマッピングモジュールを開発する。
最後に、自己教師型TTS AMとして機能する条件分散逐次変分自動符号化器(C-DSVAE)は、予測されたUAとターゲットスピーカを埋め込み、メルスペクトルを生成し、最終的にニューラルボコーダで波形に変換する。
ペアttsコーパスを用いずに音声合成を実現する方法を示す。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性の音声を合成できることが示されている。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Into-TTS : Intonation Template based Prosody Control System [17.68906373821669]
イントネーションは、話者の意図を伝える上で重要な役割を果たす。
現在のエンドツーエンドTSシステムは、適切なイントネーションをモデル化できないことが多い。
そこで我々は,異なる音調で音声を合成する,新しい直感的な手法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:37:19Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。