論文の概要: Text-to-speech synthesis based on latent variable conversion using
diffusion probabilistic model and variational autoencoder
- arxiv url: http://arxiv.org/abs/2212.08329v1
- Date: Fri, 16 Dec 2022 08:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:35:45.476922
- Title: Text-to-speech synthesis based on latent variable conversion using
diffusion probabilistic model and variational autoencoder
- Title(参考訳): 拡散確率モデルと変分オートエンコーダを用いた潜在変数変換に基づくテキスト音声合成
- Authors: Yusuke Yasuda, Tomoki Toda
- Abstract要約: テキスト音声合成(Text-to-Speech synthesis、TTS)は、テキストを音声に変換するタスクである。
拡散確率モデルと変分オートエンコーダ(VAE)を用いた潜在変数変換に基づくTS法を提案する。
本手法は正書法やアライメントエラーの少ない言語ラベルに対して頑健である。
- 参考スコア(独自算出の注目度): 35.27180572719508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-speech synthesis (TTS) is a task to convert texts into speech. Two of
the factors that have been driving TTS are the advancements of probabilistic
models and latent representation learning. We propose a TTS method based on
latent variable conversion using a diffusion probabilistic model and the
variational autoencoder (VAE). In our TTS method, we use a waveform model based
on VAE, a diffusion model that predicts the distribution of latent variables in
the waveform model from texts, and an alignment model that learns alignments
between the text and speech latent sequences. Our method integrates diffusion
with VAE by modeling both mean and variance parameters with diffusion, where
the target distribution is determined by approximation from VAE. This latent
variable conversion framework potentially enables us to flexibly incorporate
various latent feature extractors. Our experiments show that our method is
robust to linguistic labels with poor orthography and alignment errors.
- Abstract(参考訳): テキスト音声合成(TTS)は、テキストを音声に変換するタスクである。
TTSを駆動している2つの要因は、確率モデルと潜在表現学習の進歩である。
拡散確率モデルと変分オートエンコーダ(VAE)を用いた潜在変数変換に基づくTS法を提案する。
このtts法では、vaeに基づく波形モデルと、テキストから波形モデルの潜在変数分布を予測する拡散モデルと、テキストと音声の潜在配列のアライメントを学習するアライメントモデルを用いる。
本手法は, 平均および分散パラメータと拡散パラメータをモデル化し, VAEからの近似により対象分布を決定することで, VAEとの拡散を積分する。
この潜在変数変換フレームワークは、様々な潜在機能抽出器を柔軟に組み込むことができます。
本手法は正書法やアライメント誤差の少ない言語ラベルに対して頑健であることを示す。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - Diffusion models for probabilistic programming [56.47577824219207]
拡散モデル変分推論(DMVI)は確率型プログラミング言語(PPL)における自動近似推論手法である
DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。
論文 参考訳(メタデータ) (2023-11-01T12:17:05Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech [4.348588963853261]
メルスペクトルを生成するスコアベースデコーダを用いた新しい音声合成モデルGrad-TTSを提案する。
フレキシブル微分方程式の枠組みは、従来の拡散確率モデルを一般化するのに役立ちます。
主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。
論文 参考訳(メタデータ) (2021-05-13T14:47:44Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。