論文の概要: Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior
- arxiv url: http://arxiv.org/abs/2002.03788v1
- Date: Thu, 6 Feb 2020 12:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:39:07.071259
- Title: Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior
- Title(参考訳): 量子化された微細なVAEと自己回帰韻律を用いた多種・自然テキスト音声サンプルの生成
- Authors: Guangzhi Sun, Yu Zhang, Ron J. Weiss, Yuan Cao, Heiga Zen, Andrew
Rosenberg, Bhuvana Ramabhadran, Yonghui Wu
- Abstract要約: 本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 53.69310441063162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural text-to-speech (TTS) models with fine-grained latent features
enable precise control of the prosody of synthesized speech. Such models
typically incorporate a fine-grained variational autoencoder (VAE) structure,
extracting latent features at each input token (e.g., phonemes). However,
generating samples with the standard VAE prior often results in unnatural and
discontinuous speech, with dramatic prosodic variation between tokens. This
paper proposes a sequential prior in a discrete latent space which can generate
more naturally sounding samples. This is accomplished by discretizing the
latent features using vector quantization (VQ), and separately training an
autoregressive (AR) prior model over the result. We evaluate the approach using
listening tests, objective metrics of automatic speech recognition (ASR)
performance, and measurements of prosody attributes. Experimental results show
that the proposed model significantly improves the naturalness in random sample
generation. Furthermore, initial experiments demonstrate that randomly sampling
from the proposed model can be used as data augmentation to improve the ASR
performance.
- Abstract(参考訳): 最近のニューラルテキスト音声合成(TTS)モデルは,音声合成の韻律を正確に制御することができる。
このようなモデルは典型的には細粒度の変分オートエンコーダ(VAE)構造を取り入れ、各入力トークン(例えば音素)の潜在特徴を抽出する。
しかし、標準のVAEでサンプルを生成すると、しばしば不自然で不連続な発話が起こり、トークン間の劇的な韻律的変化が生じる。
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
これは、ベクトル量子化(VQ)を用いて潜在特徴を離散化し、結果に対して自己回帰(AR)事前モデルを個別に訓練することで達成される。
本手法は,リスニングテスト,自動音声認識(asr)性能の客観的指標,韻律属性の測定を用いて評価する。
実験の結果,提案モデルはランダムサンプル生成の自然性を大幅に向上させることがわかった。
さらに,asr性能向上のためのデータ拡張として,提案モデルからランダムにサンプリングできることを示す実験を行った。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech [27.84124625934247]
各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
論文 参考訳(メタデータ) (2022-05-09T08:39:53Z) - Speech Enhancement with Score-Based Generative Models in the Complex
STFT Domain [18.090665052145653]
複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練課題を提案する。
微分方程式の定式化の中でこのトレーニングタスクを導出することにより、予測子-相関子標本化が可能となる。
論文 参考訳(メタデータ) (2022-03-31T12:53:47Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - A learned conditional prior for the VAE acoustic space of a TTS system [17.26941119364184]
変分オートエンコーダ(VAE)のような生成モデルは、この変数をキャプチャし、サンプリングによって同じ文を複数再送することができる。
ニューラルテキスト音声(TTS)システムにおいて,VAE潜時空間の先行情報を計算する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-14T15:36:16Z) - Hierarchical Multi-Grained Generative Model for Expressive Speech
Synthesis [19.386519810463003]
本稿では,表現型音声を合成する多粒遅延変数を用いた階層的生成モデルを提案する。
提案するフレームワークは,全発話における発話スタイルの制御性も提供する。
論文 参考訳(メタデータ) (2020-09-17T18:00:19Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。