論文の概要: Continuous Autoregressive Modeling with Stochastic Monotonic Alignment for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2502.01084v2
- Date: Thu, 13 Feb 2025 09:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:43:56.525489
- Title: Continuous Autoregressive Modeling with Stochastic Monotonic Alignment for Speech Synthesis
- Title(参考訳): 確率的単調アライメントを用いた連続自己回帰モデルによる音声合成
- Authors: Weiwei Lin, Chenghan He,
- Abstract要約: 音声合成のための新しい自己回帰モデル手法を提案する。
本稿では,変分型オートエンコーダ(VAE)と多モード潜在空間と,ガウス混合モデル(GMM)を条件付き確率分布として用いた自己回帰モデルを組み合わせる。
提案手法は, 主観的, 客観的な評価において, 最先端の自己回帰モデルであるVALL-Eよりも優れていた。
- 参考スコア(独自算出の注目度): 4.062046658662013
- License:
- Abstract: We propose a novel autoregressive modeling approach for speech synthesis, combining a variational autoencoder (VAE) with a multi-modal latent space and an autoregressive model that uses Gaussian Mixture Models (GMM) as the conditional probability distribution. Unlike previous methods that rely on residual vector quantization, our model leverages continuous speech representations from the VAE's latent space, greatly simplifying the training and inference pipelines. We also introduce a stochastic monotonic alignment mechanism to enforce strict monotonic alignments. Our approach significantly outperforms the state-of-the-art autoregressive model VALL-E in both subjective and objective evaluations, achieving these results with only 10.3\% of VALL-E's parameters. This demonstrates the potential of continuous speech language models as a more efficient alternative to existing quantization-based speech language models. Sample audio can be found at https://tinyurl.com/gmm-lm-tts.
- Abstract(参考訳): 本稿では,変分型オートエンコーダ(VAE)と多モード潜在空間と,ガウス混合モデル(GMM)を条件付き確率分布として用いた自己回帰モデルを組み合わせた,音声合成のための新しい自己回帰モデリング手法を提案する。
残差ベクトル量子化に依存する従来の手法とは異なり、我々のモデルはVAEの潜在空間からの連続的な音声表現を活用し、トレーニングと推論のパイプラインを大幅に単純化する。
また、厳密な単調アライメントを強制する確率的単調アライメント機構を導入する。
提案手法は主観評価と客観的評価の両方において最先端の自己回帰モデル VALL-E よりも優れており,VALL-E のパラメータの 10.3 % しか得られていない。
このことは、既存の量子化に基づく音声モデルのより効率的な代替として、連続言語モデルの可能性を示している。
サンプルオーディオはhttps://tinyurl.com/gmm-lm-ttsで見ることができる。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Parallel and Flexible Sampling from Autoregressive Models via Langevin
Dynamics [13.097161185372151]
ホワイトノイズでシーケンスを初期化し,Langevin dynamicsによって定義されたマルコフ連鎖に従ってシーケンスのグローバルなログライクな状態を示すサンプリング手順を提案する。
これらの手法を視覚および聴覚領域の自己回帰モデルに適用し,オーディオソース分離,超解像,インペインティングの競争結果と比較した。
論文 参考訳(メタデータ) (2021-05-17T21:07:02Z) - A Spectral Energy Distance for Parallel Speech Synthesis [29.14723501889278]
音声合成は重要な実用的生成モデル問題である。
そこで本研究では,高度に並列な音声モデルの学習を可能にする学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-03T19:56:04Z) - Early Stage LM Integration Using Local and Global Log-Linear Combination [46.91755970827846]
暗黙のアライメント機構を持つシーケンス対シーケンスモデル(例えば注意)は、従来のハイブリッド隠れマルコフモデル(HMM)に対するパフォーマンスギャップを埋めている。
両方のケースで単語エラー率を改善する重要な要因は、大きなテキストのみのコーパスでトレーニングされた外部言語モデル(LM)を使用することである。
暗黙アライメントに基づくシーケンス・ツー・シーケンスモデルに言語モデルを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-20T13:49:55Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。