論文の概要: DiffProsody: Diffusion-based Latent Prosody Generation for Expressive
Speech Synthesis with Prosody Conditional Adversarial Training
- arxiv url: http://arxiv.org/abs/2307.16549v1
- Date: Mon, 31 Jul 2023 10:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:00:25.005435
- Title: DiffProsody: Diffusion-based Latent Prosody Generation for Expressive
Speech Synthesis with Prosody Conditional Adversarial Training
- Title(参考訳): DiffProsody: Prosody Conditional Adversarial Trainingを用いた音声合成のための拡散型潜在韻律生成
- Authors: Hyung-Seok Oh, Sang-Hoon Lee and Seong-Whan Lee
- Abstract要約: 本研究では,拡散型潜在韻律生成器と韻律条件付き逆律学習を用いて表現音声を合成するDiffProsodyという新しい手法を提案する。
本研究は,韻律ベクトル生成における韻律生成装置の有効性を確認するとともに,韻律ベクトルの正確なエミュレートにより,韻律条件判別器が生成音声の質を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 29.18355147307535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive text-to-speech systems have undergone significant advancements
owing to prosody modeling, but conventional methods can still be improved.
Traditional approaches have relied on the autoregressive method to predict the
quantized prosody vector; however, it suffers from the issues of long-term
dependency and slow inference. This study proposes a novel approach called
DiffProsody in which expressive speech is synthesized using a diffusion-based
latent prosody generator and prosody conditional adversarial training. Our
findings confirm the effectiveness of our prosody generator in generating a
prosody vector. Furthermore, our prosody conditional discriminator
significantly improves the quality of the generated speech by accurately
emulating prosody. We use denoising diffusion generative adversarial networks
to improve the prosody generation speed. Consequently, DiffProsody is capable
of generating prosody 16 times faster than the conventional diffusion model.
The superior performance of our proposed method has been demonstrated via
experiments.
- Abstract(参考訳): 表現型音声合成システムは韻律モデリングによる大幅な進歩を遂げているが,従来の手法は改善されている。
従来のアプローチは、量子化された韻律ベクトルを予測するのに自己回帰法に依存してきたが、長期依存の問題や推論の遅い問題に苦しんでいる。
本研究では,拡散型潜在韻律生成器と韻律条件付き逆律学習を用いて表現音声を合成するDiffProsodyという新しい手法を提案する。
本研究は,韻律ベクトル生成における韻律ジェネレータの有効性を確認した。
さらに、韻律条件判別器は、韻律を正確にエミュレートすることにより、生成した音声の品質を著しく向上させる。
我々は, 分散生成型ネットワークを用いて, 韻律生成速度を改善する。
その結果、DiffProsodyは従来の拡散モデルよりも16倍速く韻律を生成することができる。
提案手法の優れた性能を実験により実証した。
関連論文リスト
- RecMoDiffuse: Recurrent Flow Diffusion for Human Motion Generation [5.535590461577558]
RecMoDiffuseは時間モデリングのための新しい再帰拡散定式化である。
人間の動作の時間的モデリングにおけるRecMoDiffuseの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T11:25:37Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - Can Diffusion Model Achieve Better Performance in Text Generation?
Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。
トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。
本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文 参考訳(メタデータ) (2023-05-08T05:32:22Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。