論文の概要: CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency
Model
- arxiv url: http://arxiv.org/abs/2305.06908v4
- Date: Sun, 29 Oct 2023 14:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:40:19.118861
- Title: CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency
Model
- Title(参考訳): CoMoSpeech:一貫性モデルによるワンステップ音声と歌声合成
- Authors: Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
- Abstract要約: 本研究では,単一拡散サンプリングステップによる音声合成を実現する"Co"sistency "Mo"del-based "Speech"合成法,"CoMoSpeech"を提案する。
単一のサンプリングステップで音声録音を生成することで、CoMoSpeechはリアルタイムよりも150倍以上高速な推論速度を実現する。
- 参考スコア(独自算出の注目度): 41.21042900853639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising diffusion probabilistic models (DDPMs) have shown promising
performance for speech synthesis. However, a large number of iterative steps
are required to achieve high sample quality, which restricts the inference
speed. Maintaining sample quality while increasing sampling speed has become a
challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based
"Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a
single diffusion sampling step while achieving high audio quality. The
consistency constraint is applied to distill a consistency model from a
well-designed diffusion-based teacher model, which ultimately yields superior
performances in the distilled CoMoSpeech. Our experiments show that by
generating audio recordings by a single sampling step, the CoMoSpeech achieves
an inference speed more than 150 times faster than real-time on a single NVIDIA
A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based
speech synthesis truly practical. Meanwhile, objective and subjective
evaluations on text-to-speech and singing voice synthesis show that the
proposed teacher models yield the best audio quality, and the one-step sampling
based CoMoSpeech achieves the best inference speed with better or comparable
audio quality to other conventional multi-step diffusion model baselines. Audio
samples are available at https://comospeech.github.io/.
- Abstract(参考訳): denoising diffusion probabilistic models (ddpms) は音声合成に有望な性能を示している。
しかし、高いサンプル品質を達成するためには、推論速度を制限するために、多数の反復的なステップが必要である。
サンプリング速度を高めながらサンプル品質を維持することが課題となっている。
本稿では,単一の拡散サンプリングステップで音声合成を行い,高い音声品質を実現し,音声合成を実現する「コ・ナンシスタンス・"mo"del-based "speech" 合成法,comospeechを提案する。
整合性制約を適用し、よく設計された拡散に基づく教師モデルから整合性モデルを蒸留し、最終的に蒸留したCoMoSpeechにおいて優れた性能を得る。
私たちの実験では、単一のサンプリングステップで音声記録を生成することで、hspeech2に匹敵する単一のnvidia a100 gpuで、リアルタイムよりも150倍高速で、拡散サンプリングベースの音声合成が真に実用的であることを示す。
一方,テキスト音声合成と歌唱音声合成における客観的・主観的評価では,提案する教師モデルが最高の音響品質を得られ,従来の多段階拡散モデルと同等の音響品質で最良な推定速度が得られることを示す。
オーディオサンプルはhttps://comospeech.github.io/で入手できる。
関連論文リスト
- DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization [12.310318928818546]
そこで本研究では, 直接的エンドツーエンド評価を用いたTS拡散モデルの蒸留法を提案する。
DMDSpeechは、自然性と話者類似性の両方において、従来の最先端モデルより一貫して上回っていることを示す。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。
我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文 参考訳(メタデータ) (2024-04-23T02:57:46Z) - CoMoSVC: Consistency Model-based Singing Voice Conversion [40.08004069518143]
一貫性モデルに基づく歌声変換法であるCoMoSVCを提案する。
CoMoSVCは、高品質な生成と高速サンプリングの両方を達成することを目指している。
1つのNVIDIA GTX4090 GPUの実験では、CoMoSVCは最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を示している。
論文 参考訳(メタデータ) (2024-01-03T15:47:17Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [189.05831125931053]
FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。
FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。
我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
論文 参考訳(メタデータ) (2020-06-08T13:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。