Fugu-MT 論文翻訳(概要): Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS

論文の概要: Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS

arxiv url: http://arxiv.org/abs/2308.01573v1
Date: Thu, 3 Aug 2023 07:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 14:55:34.800807
Title: Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS
Title（参考訳）: 高忠実度マルチスピーカTSのためのデュアルディミネータを用いたデノイング拡散モデルの逆トレーニング
Authors: Myeongjin Ko and Yong-Hoon Choi
Abstract要約: 拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The diffusion model is capable of generating high-quality data through a probabilistic approach. However, it suffers from the drawback of slow generation speed due to the requirement of a large number of time steps. To address this limitation, recent models such as denoising diffusion implicit models (DDIM) focus on generating samples without directly modeling the probability distribution, while models like denoising diffusion generative adversarial networks (GAN) combine diffusion processes with GANs. In the field of speech synthesis, a recent diffusion speech synthesis model called DiffGAN-TTS, utilizing the structure of GANs, has been introduced and demonstrates superior performance in both speech quality and generation speed. In this paper, to further enhance the performance of DiffGAN-TTS, we propose a speech synthesis model with two discriminators: a diffusion discriminator for learning the distribution of the reverse process and a spectrogram discriminator for learning the distribution of the generated data. Objective metrics such as structural similarity index measure (SSIM), mel-cepstral distortion (MCD), F0 root mean squared error (F0 RMSE), short-time objective intelligibility (STOI), perceptual evaluation of speech quality (PESQ), as well as subjective metrics like mean opinion score (MOS), are used to evaluate the performance of the proposed model. The evaluation results show that the proposed model outperforms recent state-of-the-art models such as FastSpeech2 and DiffGAN-TTS in various metrics. Our implementation and audio samples are located on GitHub.
Abstract（参考訳）: 拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。しかし、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。この制限に対処するため、ddim(denoising diffusion implicit models)のような最近のモデルでは、確率分布を直接モデル化せずにサンプルを生成することにフォーカスしているが、gan(denoising diffusion generative adversarial networks)のようなモデルは拡散過程とganを組み合わせる。音声合成の分野では、GANの構造を利用したDiffGAN-TTSと呼ばれる拡散音声合成モデルを導入し、音声品質と生成速度の両方において優れた性能を示す。本稿では,差分ttsの性能をさらに高めるために,逆過程の分布を学習する拡散弁別器と,生成されたデータの分布を学習する分光弁別器の2つの弁別器を用いた音声合成モデルを提案する。構造類似度指数測定(SSIM)、メルケプストラー歪み(MCD)、F0ルート平均二乗誤差(F0 RMSE)、短時間客観的インテリジェンス(STOI)、音声品質の知覚的評価(PESQ)、および平均世論スコア(MOS)のような主観的指標を用いて提案モデルの性能を評価する。評価結果から,提案モデルはFastSpeech2やDiffGAN-TTSといった最新の最先端モデルよりも高い性能を示した。実装とオーディオサンプルはGitHubにあります。

関連論文リスト

DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech [42.663766380488205]
DIDiffGesは、いくつかのサンプリングステップだけで、高品質で表現力のあるジェスチャーを音声から合成することができる。提案手法は, 人間の類似性, 適切性, スタイルの正しさにおいて, 最先端のアプローチよりも優れる。
論文参考訳（メタデータ） (2025-03-21T11:23:39Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文参考訳（メタデータ） (2024-01-30T09:17:57Z)
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文参考訳（メタデータ） (2023-10-25T17:59:12Z)
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文参考訳（メタデータ） (2023-09-19T16:36:33Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文参考訳（メタデータ） (2023-06-09T07:02:43Z)
Insights into Closed-form IPM-GAN Discriminator Guidance for Diffusion Modeling [11.68361062474064]
本稿では,GAN判別器がLangevinに基づくサンプリングに与える影響を理論的に解析する枠組みを提案する。提案手法は既存の加速拡散技術と組み合わせて潜在空間画像生成を改善することができることを示す。
論文参考訳（メタデータ） (2023-06-02T16:24:07Z)
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文参考訳（メタデータ） (2023-05-26T16:38:48Z)
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。 ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。 ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文参考訳（メタデータ） (2022-07-13T17:45:43Z)
DiffGAN-TTS: High-Fidelity and Efficient Text-to-Speech with Denoising Diffusion GANs [39.388599580262614]
DiffGAN-TTS(DiffGAN-TTS, DDPM-based text-to-speech)モデルを導入し, 高忠実度音声合成を実現する。実験の結果,DiffGAN-TTSは1段階のみの高合成性能が得られることがわかった。
論文参考訳（メタデータ） (2022-01-28T07:41:10Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。