論文の概要: Hierarchical Multi-Grained Generative Model for Expressive Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2009.08474v2
- Date: Sun, 26 Dec 2021 08:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:24:25.697715
- Title: Hierarchical Multi-Grained Generative Model for Expressive Speech
Synthesis
- Title(参考訳): 表現型音声合成のための階層的多面的生成モデル
- Authors: Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura,
Yoshihiko Nankaku, Keiichi Tokuda
- Abstract要約: 本稿では,表現型音声を合成する多粒遅延変数を用いた階層的生成モデルを提案する。
提案するフレームワークは,全発話における発話スタイルの制御性も提供する。
- 参考スコア(独自算出の注目度): 19.386519810463003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a hierarchical generative model with a multi-grained
latent variable to synthesize expressive speech. In recent years, fine-grained
latent variables are introduced into the text-to-speech synthesis that enable
the fine control of the prosody and speaking styles of synthesized speech.
However, the naturalness of speech degrades when these latent variables are
obtained by sampling from the standard Gaussian prior. To solve this problem,
we propose a novel framework for modeling the fine-grained latent variables,
considering the dependence on an input text, a hierarchical linguistic
structure, and a temporal structure of latent variables. This framework
consists of a multi-grained variational autoencoder, a conditional prior, and a
multi-level auto-regressive latent converter to obtain the different
time-resolution latent variables and sample the finer-level latent variables
from the coarser-level ones by taking into account the input text. Experimental
results indicate an appropriate method of sampling fine-grained latent
variables without the reference signal at the synthesis stage. Our proposed
framework also provides the controllability of speaking style in an entire
utterance.
- Abstract(参考訳): 本稿では,多面的潜在変数を持つ階層的生成モデルを提案し,表現型音声を合成する。
近年,合成音声の韻律や発声スタイルの微調整を可能にするテキスト音声合成に,微粒化潜時変数を導入している。
しかし、これらの潜伏変数が標準ガウス先行値からサンプリングすることによって得られる音声の自然度は低下する。
そこで本研究では,入力テキスト,階層型言語構造,潜伏変数の時間的構造への依存を考慮した,詳細な潜伏変数をモデル化するための新しいフレームワークを提案する。
このフレームワークは、入力テキストを考慮した多粒度変分自動エンコーダ、条件付き前処理、多段自動回帰潜時変換器から構成され、異なる時間分解能潜時変数を取得し、より詳細な潜時変数を粗いレベルからサンプリングする。
実験の結果, 合成段階での基準信号を用いずに, 細粒度潜伏変数をサンプリングする適切な方法が示された。
提案フレームワークは,発話全体における発話スタイルの制御性も提供する。
関連論文リスト
- Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - DiscoDVT: Generating Long Text with Discourse-Aware Discrete Variational
Transformer [40.10695204278747]
本稿では,不整合問題に対処する談話対応離散変分変換器DiscoDVTを提案する。
本研究では、2つのオープンなストーリー生成データセットについて広範な実験を行い、より長い範囲のコヒーレンスを持つ長文を生成するためにモデルを導く談話構造に対して有意義な対応を学習していることを示す。
論文 参考訳(メタデータ) (2021-10-12T13:41:06Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Syntax-driven Iterative Expansion Language Models for Controllable Text
Generation [2.578242050187029]
本稿では,ニューラルテキスト生成に構文的帰納バイアスを導入するための新しいパラダイムを提案する。
実験の結果,このパラダイムはテキスト生成に有効であり,LSTMとトランスフォーマーの質と同等の多様性を持つことがわかった。
論文 参考訳(メタデータ) (2020-04-05T14:29:40Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。