論文の概要: ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech
- arxiv url: http://arxiv.org/abs/2207.06389v1
- Date: Wed, 13 Jul 2022 17:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 16:05:00.141462
- Title: ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech
- Title(参考訳): ProDiff: 高品質テキスト合成のための高速拡散モデル
- Authors: Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, Yi Ren
- Abstract要約: 本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
- 参考スコア(独自算出の注目度): 63.780196620966905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion probabilistic models (DDPMs) have recently achieved
leading performances in many generative tasks. However, the inherited iterative
sampling process costs hinder their applications to text-to-speech deployment.
Through the preliminary study on diffusion model parameterization, we find that
previous gradient-based TTS models require hundreds or thousands of iterations
to guarantee high sample quality, which poses a challenge for accelerating
sampling. In this work, we propose ProDiff, on progressive fast diffusion model
for high-quality text-to-speech. Unlike previous work estimating the gradient
for data density, ProDiff parameterizes the denoising model by directly
predicting clean data to avoid distinct quality degradation in accelerating
sampling. To tackle the model convergence challenge with decreased diffusion
iterations, ProDiff reduces the data variance in the target site via knowledge
distillation. Specifically, the denoising model uses the generated
mel-spectrogram from an N-step DDIM teacher as the training target and distills
the behavior into a new model with N/2 steps. As such, it allows the TTS model
to make sharp predictions and further reduces the sampling time by orders of
magnitude. Our evaluation demonstrates that ProDiff needs only 2 iterations to
synthesize high-fidelity mel-spectrograms, while it maintains sample quality
and diversity competitive with state-of-the-art models using hundreds of steps.
ProDiff enables a sampling speed of 24x faster than real-time on a single
NVIDIA 2080Ti GPU, making diffusion models practically applicable to
text-to-speech synthesis deployment for the first time. Our extensive ablation
studies demonstrate that each design in ProDiff is effective, and we further
show that ProDiff can be easily extended to the multi-speaker setting. Audio
samples are available at \url{https://ProDiff.github.io/.}
- Abstract(参考訳): denoising diffusion probabilistic models (ddpms) は、最近多くの生成的タスクにおいて主要な性能を達成している。
しかし、継承された反復サンプリングプロセスは、テキストから音声へのデプロイを妨げます。
拡散モデルパラメタライゼーションの予備研究を通じて, 従来の勾配モデルによるTSSモデルでは, 高い試料品質を保証するため, 数百~数千回の反復が必要であり, サンプリングの高速化に課題が生じる。
本稿では,高品質テキスト音声の進行的高速拡散モデルであるProDiffを提案する。
データ密度の勾配を推定する以前の作業とは異なり、prodiffはサンプリングを加速するときに、クリーンなデータを直接予測することでノイズモデルをパラメータ化する。
拡散反復の減少によるモデル収束問題に対処するため、ProDiffは知識蒸留により対象部位のデータ分散を低減する。
具体的には,N段階DDIM教師が生成したメル-スペクトログラムをトレーニング対象とし,N/2段階の新たなモデルにその挙動を蒸留する。
これにより、ttsモデルは鋭い予測が可能となり、さらにサンプリング時間が桁違いに短縮される。
評価の結果,ProDiffは高忠実度メル-スペクトログラムの合成に2回しか必要とせず,数百段階のステップを用いた最先端モデルと競合するサンプル品質と多様性を維持していることがわかった。
ProDiffは、単一のNVIDIA 2080Ti GPU上で、サンプリング速度がリアルタイムより24倍速くなり、拡散モデルが初めてテキスト音声合成デプロイメントに適用できる。
広範なアブレーション研究により,prodiffの各設計が有効であることが示され,prodiffは複数話者設定に容易に拡張できることを示した。
オーディオサンプルは \url{https://ProDiff.github.io/ で入手できる。
}
関連論文リスト
- Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Diff-TTS: A Denoising Diffusion Model for Text-to-Speech [14.231478930274058]
自然で効率的な音声合成を実現する新しい非自己回帰型TTSモデルであるDiff-TTSを提案する。
Diff-TTSは、拡散時間ステップを通じてノイズ信号をメル・スペクトログラムに変換するデノイジング拡散フレームワークを利用しています。
Diff-TTSが1つのNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを検証する。
論文 参考訳(メタデータ) (2021-04-03T13:53:19Z) - Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。
DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文 参考訳(メタデータ) (2020-10-06T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。