論文の概要: BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.13508v1
- Date: Fri, 25 Mar 2022 08:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:04:13.390430
- Title: BDDM: Bilateral Denoising Diffusion Models for Fast and High-Quality
Speech Synthesis
- Title(参考訳): BDDM:高速かつ高品質な音声合成のためのバイラテラルDenoising Diffusion Model
- Authors: Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
- Abstract要約: 拡散確率モデル(DPM)とその拡張は、競争力のある生成モデルとして登場したが、効率的なサンプリングの課題に直面している。
本稿では,前処理と逆処理の両方をスケジュールネットワークとスコアネットワークでパラメータ化する,新たな二値化拡散モデルを提案する。
従来のサロゲートよりも厳密なログの辺りを狭めることが,新しいサロゲートの目的であることを示す。
- 参考スコア(独自算出の注目度): 45.58131296169655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models (DPMs) and their extensions have emerged as
competitive generative models yet confront challenges of efficient sampling. We
propose a new bilateral denoising diffusion model (BDDM) that parameterizes
both the forward and reverse processes with a schedule network and a score
network, which can train with a novel bilateral modeling objective. We show
that the new surrogate objective can achieve a lower bound of the log marginal
likelihood tighter than a conventional surrogate. We also find that BDDM allows
inheriting pre-trained score network parameters from any DPMs and consequently
enables speedy and stable learning of the schedule network and optimization of
a noise schedule for sampling. Our experiments demonstrate that BDDMs can
generate high-fidelity audio samples with as few as three sampling steps.
Moreover, compared to other state-of-the-art diffusion-based neural vocoders,
BDDMs produce comparable or higher quality samples indistinguishable from human
speech, notably with only seven sampling steps (143x faster than WaveGrad and
28.6x faster than DiffWave). We release our code at
https://github.com/tencent-ailab/bddm.
- Abstract(参考訳): 拡散確率モデル(DPM)とその拡張は、競争的生成モデルとして現れるが、効率的なサンプリングの課題に直面している。
本稿では,前処理と逆処理の両方をスケジュールネットワークとスコアネットワークでパラメータ化し,新たな二元的モデリング目標でトレーニングできる新しい二元的認知拡散モデル(BDDM)を提案する。
新たなサロゲートの目標は,従来のサロゲートよりもログ周縁確率の上限を低くすることができることを示した。
また、BDDMは任意のDPMから事前学習したスコアネットワークパラメータを継承し、スケジュールネットワークの高速かつ安定した学習とサンプリングのためのノイズスケジュールの最適化を可能にする。
実験の結果,BDDMは3段階のサンプリングステップで高忠実度オーディオサンプルを生成することができることがわかった。
さらに、他の最先端拡散ベースのニューラルボコーダと比較して、BDDMsは人間の音声と区別できない同等または高い品質のサンプルを生成し、特に7つのサンプリングステップ(WaveGradより143倍、DiffWaveより28.6倍速い)しか生成しない。
私たちはコードをhttps://github.com/tencent-ailab/bddmでリリースします。
関連論文リスト
- Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - Bilateral Denoising Diffusion Models [34.507876199641665]
拡散確率モデル (DDPM) は競合生成モデルとして出現している。
本稿では,高品質なサンプルを生成するためのステップを著しく減らした,新しい二値化拡散モデル(BDDM)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:23:41Z) - Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。
DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文 参考訳(メタデータ) (2020-10-06T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。