論文の概要: ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech
- arxiv url: http://arxiv.org/abs/2212.14518v1
- Date: Fri, 30 Dec 2022 02:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:15:24.178988
- Title: ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech
- Title(参考訳): ResGrad: テキストから音声への拡散確率モデル
- Authors: Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan,
Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, Danilo Mandic
- Abstract要約: DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
- 参考スコア(独自算出の注目度): 37.29193613404699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising Diffusion Probabilistic Models (DDPMs) are emerging in
text-to-speech (TTS) synthesis because of their strong capability of generating
high-fidelity samples. However, their iterative refinement process in
high-dimensional data space results in slow inference speed, which restricts
their application in real-time systems. Previous works have explored speeding
up by minimizing the number of inference steps but at the cost of sample
quality. In this work, to improve the inference speed for DDPM-based TTS model
while achieving high sample quality, we propose ResGrad, a lightweight
diffusion model which learns to refine the output spectrogram of an existing
TTS model (e.g., FastSpeech 2) by predicting the residual between the model
output and the corresponding ground-truth speech. ResGrad has several
advantages: 1) Compare with other acceleration methods for DDPM which need to
synthesize speech from scratch, ResGrad reduces the complexity of task by
changing the generation target from ground-truth mel-spectrogram to the
residual, resulting into a more lightweight model and thus a smaller real-time
factor. 2) ResGrad is employed in the inference process of the existing TTS
model in a plug-and-play way, without re-training this model. We verify ResGrad
on the single-speaker dataset LJSpeech and two more challenging datasets with
multiple speakers (LibriTTS) and high sampling rate (VCTK). Experimental
results show that in comparison with other speed-up methods of DDPMs: 1)
ResGrad achieves better sample quality with the same inference speed measured
by real-time factor; 2) with similar speech quality, ResGrad synthesizes speech
faster than baseline methods by more than 10 times. Audio samples are available
at https://resgrad1.github.io/.
- Abstract(参考訳): 拡散確率モデル(DDPM)は,高忠実度サンプルを生成する能力の強いため,テキスト音声合成において出現している。
しかし、高次元のデータ空間における反復的な洗練プロセスは推論速度が遅くなり、リアルタイムシステムでの応用が制限される。
以前の研究では、推論ステップの数を最小化し、サンプル品質を犠牲にすることで、スピードアップを探求している。
そこで本研究では,ddpmベースのttsモデルの高いサンプル品質を実現しつつ,推定速度を向上させるために,既存のttsモデルの出力スペクトル(例えばfastspeech)を洗練することを学ぶ軽量拡散モデルresgradを提案する。
2)モデル出力と対応する接地音声との残差を予測する。
ResGradにはいくつかの利点がある。
1) 音声をスクラッチから合成する必要のあるDDPMの他の加速度法と比較して,ResGradは, 生成対象を接地トラスメルスペクトルから残留物に変更することにより, タスクの複雑さを低減し, より軽量なモデルとなり, より小さなリアルタイム因子となる。
2) ResGrad は,既存の TTS モデルのプラグアンドプレイ方式で,このモデルを再学習することなく,推論プロセスに使用される。
単一話者データセットLJSpeechと、複数の話者(LibriTTS)と高いサンプリングレート(VCTK)を持つより難しい2つのデータセット上でResGradを検証する。
実験の結果, 他のDDPMの高速化法と比較した。
1) ResGradは, 実時間係数で測定した同じ推論速度で, より良い試料品質を実現する。
2) 類似した音声品質を有するresgradは, ベースライン法よりも10倍以上高速に音声合成を行う。
オーディオサンプルはhttps://resgrad1.github.io/で入手できる。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Diff-TTS: A Denoising Diffusion Model for Text-to-Speech [14.231478930274058]
自然で効率的な音声合成を実現する新しい非自己回帰型TTSモデルであるDiff-TTSを提案する。
Diff-TTSは、拡散時間ステップを通じてノイズ信号をメル・スペクトログラムに変換するデノイジング拡散フレームワークを利用しています。
Diff-TTSが1つのNVIDIA 2080Ti GPUでリアルタイムよりも28倍高速に生成されることを検証する。
論文 参考訳(メタデータ) (2021-04-03T13:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。