論文の概要: A learned conditional prior for the VAE acoustic space of a TTS system
- arxiv url: http://arxiv.org/abs/2106.10229v1
- Date: Mon, 14 Jun 2021 15:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-27 09:06:06.135203
- Title: A learned conditional prior for the VAE acoustic space of a TTS system
- Title(参考訳): TTSシステムにおけるVAE音響空間の学習条件
- Authors: Penny Karanasou, Sri Karlapati, Alexis Moinet, Arnaud Joly, Ammar
Abbas, Simon Slangen, Jaime Lorenzo Trueba, Thomas Drugman
- Abstract要約: 変分オートエンコーダ(VAE)のような生成モデルは、この変数をキャプチャし、サンプリングによって同じ文を複数再送することができる。
ニューラルテキスト音声(TTS)システムにおいて,VAE潜時空間の先行情報を計算する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 17.26941119364184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many factors influence speech yielding different renditions of a given
sentence. Generative models, such as variational autoencoders (VAEs), capture
this variability and allow multiple renditions of the same sentence via
sampling. The degree of prosodic variability depends heavily on the prior that
is used when sampling. In this paper, we propose a novel method to compute an
informative prior for the VAE latent space of a neural text-to-speech (TTS)
system. By doing so, we aim to sample with more prosodic variability, while
gaining controllability over the latent space's structure.
By using as prior the posterior distribution of a secondary VAE, which we
condition on a speaker vector, we can sample from the primary VAE taking
explicitly the conditioning into account and resulting in samples from a
specific region of the latent space for each condition (i.e. speaker). A formal
preference test demonstrates significant preference of the proposed approach
over standard Conditional VAE. We also provide visualisations of the latent
space where well-separated condition-specific clusters appear, as well as
ablation studies to better understand the behaviour of the system.
- Abstract(参考訳): 多くの要因が、与えられた文の異なる書き起こしを生み出す音声に影響を与える。
変分オートエンコーダ(vaes)のような生成モデルでは、この可変性をキャプチャし、サンプリングによって同じ文の複数のランディションを許容する。
韻律的変動の度合いは、サンプリングで使用される先行値に大きく依存する。
本稿では, ニューラルテキスト音声(TTS)システムにおいて, VAE潜時空間に先行する情報量を求める新しい手法を提案する。
そうすることで、より韻律的な変数でサンプルをサンプリングし、潜在空間の構造に対して可制御性を得る。
話者ベクトル上で条件付けする2次vaeの後方分布を予め使用することにより、条件付けを明示的に考慮し、各条件(すなわち、各条件)に対する潜在空間の特定の領域からのサンプルを一次vaeからサンプリングすることができる。
スピーカー)。
形式的選好テストは、標準条件vaeに対する提案手法の有意な選好を示す。
また,よく区切られた条件固有のクラスタが現れる潜在空間の可視化や,システムの振る舞いをよりよく理解するためのアブレーション研究も提供する。
関連論文リスト
- Conditional Sampling of Variational Autoencoders via Iterated
Approximate Ancestral Sampling [7.357511266926065]
変分オートエンコーダ(VAE)の条件付きサンプリングは、データ計算の欠如など、様々なアプリケーションで必要とされるが、計算上は難解である。
基本的条件付きサンプリングはMetropolis-within-Gibbs (MWG)である
論文 参考訳(メタデータ) (2023-08-17T16:08:18Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Structured Voronoi Sampling [61.629198273926676]
本稿では,勾配に基づく手法を用いた言語モデルから抽出する原理的アプローチの構築に向けて重要な一歩を踏み出す。
我々は勾配に基づく構造ヴォロノイサンプリング(Structured Voronoi Smpling, SVS)と呼ぶ。
制御された生成タスクでは、SVSは流動的で多様なサンプルを生成できるが、制御対象は他の方法よりもはるかに優れている。
論文 参考訳(メタデータ) (2023-06-05T17:32:35Z) - Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech [27.84124625934247]
各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
論文 参考訳(メタデータ) (2022-05-09T08:39:53Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - A Contrastive Learning Approach for Training Variational Autoencoder
Priors [137.62674958536712]
変分オートエンコーダ(VAE)は、多くの領域で応用される強力な可能性に基づく生成モデルの一つである。
VAEsが生成性に乏しいことの1つの説明は、事前の分布が集合の近似的な後部と一致しないという、事前の穴の問題である。
本研究では, 基底分布の積と再重み付け係数によって定義されるエネルギーベースの事前定義を行い, 基底を集合体後部へ近づけるようにした。
論文 参考訳(メタデータ) (2020-10-06T17:59:02Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。