論文の概要: Comparing normalizing flows and diffusion models for prosody and
acoustic modelling in text-to-speech
- arxiv url: http://arxiv.org/abs/2307.16679v1
- Date: Mon, 31 Jul 2023 13:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:21:47.128175
- Title: Comparing normalizing flows and diffusion models for prosody and
acoustic modelling in text-to-speech
- Title(参考訳): 音声合成における韻律と音響モデルのための正規化流れと拡散モデルの比較
- Authors: Guangyan Zhang, Thomas Merritt, Manuel Sam Ribeiro, Biel Tura-Vecino,
Kayoko Yanagisawa, Kamil Pokora, Abdelhamid Ezzerg, Sebastian Cygert, Ammar
Abbas, Piotr Bilinski, Roberto Barra-Chicote, Daniel Korzekwa, Jaime
Lorenzo-Trueba
- Abstract要約: プロソディとメル-スペクトログラム予測のタスクに対して,従来のL1ベースの拡散アプローチとフローベースアプローチを比較した。
フローベースモデルは、スペクトル予測の最良の性能を達成する。
拡散と流れに基づく韻律予測は、典型的なL2訓練韻律モデルよりも大幅に改善される。
- 参考スコア(独自算出の注目度): 19.385029067824576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural text-to-speech systems are often optimized on L1/L2 losses, which make
strong assumptions about the distributions of the target data space. Aiming to
improve those assumptions, Normalizing Flows and Diffusion Probabilistic Models
were recently proposed as alternatives. In this paper, we compare traditional
L1/L2-based approaches to diffusion and flow-based approaches for the tasks of
prosody and mel-spectrogram prediction for text-to-speech synthesis. We use a
prosody model to generate log-f0 and duration features, which are used to
condition an acoustic model that generates mel-spectrograms. Experimental
results demonstrate that the flow-based model achieves the best performance for
spectrogram prediction, improving over equivalent diffusion and L1 models.
Meanwhile, both diffusion and flow-based prosody predictors result in
significant improvements over a typical L2-trained prosody models.
- Abstract(参考訳): ニューラルテキスト音声システムはL1/L2損失に最適化されることが多く、ターゲットデータ空間の分布を強く仮定する。
これらの仮定を改善するため、フローの正規化と拡散確率モデルが最近提案された。
本稿では,テキスト音声合成における韻律とメル-スペクトログラム予測の課題に対して,従来のL1/L2ベースの拡散法とフローベースアプローチを比較した。
我々はprosodyモデルを用いてlog-f0と継続時間特性を生成し,メルスペクトログラムを生成する音響モデルの条件付けを行う。
実験の結果,フローベースモデルでは,等価拡散モデルやL1モデルよりも優れたスペクトル予測性能が得られた。
一方、拡散と流れに基づく韻律予測は、典型的なL2訓練韻律モデルよりも大幅に改善される。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - StoRM: A Diffusion-based Stochastic Regeneration Model for Speech
Enhancement and Dereverberation [20.262426487434393]
本稿では,予測モデルによる推定値がさらなる拡散のガイドとして提供される再生手法を提案する。
提案手法は, 高い品質のサンプルを作成しながら, 発声・呼吸アーチファクトを除去するために, 予測モデルを用いていることを示す。
論文 参考訳(メタデータ) (2022-12-22T16:35:42Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。