論文の概要: Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech
- arxiv url: http://arxiv.org/abs/2205.04120v1
- Date: Mon, 9 May 2022 08:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 16:48:52.992411
- Title: Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech
- Title(参考訳): 非自己回帰型テキスト音声合成のためのクロス・Utterance Conditioned VAE
- Authors: Yang Li, Cheng Yu, Guangzhi Sun, Hua Jiang, Fanglei Sun, Weiqin Zu,
Ying Wen, Yang Yang, Jun Wang
- Abstract要約: 各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
- 参考スコア(独自算出の注目度): 27.84124625934247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modelling prosody variation is critical for synthesizing natural and
expressive speech in end-to-end text-to-speech (TTS) systems. In this paper, a
cross-utterance conditional VAE (CUC-VAE) is proposed to estimate a posterior
probability distribution of the latent prosody features for each phoneme by
conditioning on acoustic features, speaker information, and text features
obtained from both past and future sentences. At inference time, instead of the
standard Gaussian distribution used by VAE, CUC-VAE allows sampling from an
utterance-specific prior distribution conditioned on cross-utterance
information, which allows the prosody features generated by the TTS system to
be related to the context and is more similar to how humans naturally produce
prosody. The performance of CUC-VAE is evaluated via a qualitative listening
test for naturalness, intelligibility and quantitative measurements, including
word error rates and the standard deviation of prosody attributes. Experimental
results on LJ-Speech and LibriTTS data show that the proposed CUC-VAE TTS
system improves naturalness and prosody diversity with clear margins.
- Abstract(参考訳): tts(end-to-end text-to-speech)システムの音声合成には,韻律変化のモデル化が重要である。
本稿では,過去文と未来文の両方から得られた音響的特徴,話者情報,テキスト特徴の条件付けにより,各音素の潜在韻律特徴の後方確率分布を推定するクロス発話条件vae(cuc-vae)を提案する。
推測時には、VAEが使用する標準ガウス分布の代わりに、CUC-VAEは、相互発話情報に基づいて条件付けられた発話固有の事前分布からのサンプリングを可能にする。
CUC-VAEの性能は、単語誤り率や韻律属性の標準偏差を含む、自然性、知性、定量的測定のための定性的聴取テストによって評価される。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
関連論文リスト
- Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。
RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。
RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T13:04:04Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - A learned conditional prior for the VAE acoustic space of a TTS system [17.26941119364184]
変分オートエンコーダ(VAE)のような生成モデルは、この変数をキャプチャし、サンプリングによって同じ文を複数再送することができる。
ニューラルテキスト音声(TTS)システムにおいて,VAE潜時空間の先行情報を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-14T15:36:16Z) - Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech [4.348588963853261]
メルスペクトルを生成するスコアベースデコーダを用いた新しい音声合成モデルGrad-TTSを提案する。
フレキシブル微分方程式の枠組みは、従来の拡散確率モデルを一般化するのに役立ちます。
主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。
論文 参考訳(メタデータ) (2021-05-13T14:47:44Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。