論文の概要: InferGrad: Improving Diffusion Models for Vocoder by Considering
Inference in Training
- arxiv url: http://arxiv.org/abs/2202.03751v1
- Date: Tue, 8 Feb 2022 09:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 14:23:19.022253
- Title: InferGrad: Improving Diffusion Models for Vocoder by Considering
Inference in Training
- Title(参考訳): InferGrad:トレーニングにおける推論を考慮したヴォコーダの拡散モデルの改善
- Authors: Zehua Chen, Xu Tan, Ke Wang, Shifeng Pan, Danilo Mandic, Lei He, Sheng
Zhao
- Abstract要約: InferGradは、推論プロセスをトレーニングに組み込むボコーダの拡散モデルである。
InferGradは、同じ条件下で、ベースラインのWaveGradよりも優れた音声品質を実現する。
- 参考スコア(独自算出の注目度): 33.91980890184044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion probabilistic models (diffusion models for short) require
a large number of iterations in inference to achieve the generation quality
that matches or surpasses the state-of-the-art generative models, which
invariably results in slow inference speed. Previous approaches aim to optimize
the choice of inference schedule over a few iterations to speed up inference.
However, this results in reduced generation quality, mainly because the
inference process is optimized separately, without jointly optimizing with the
training process. In this paper, we propose InferGrad, a diffusion model for
vocoder that incorporates inference process into training, to reduce the
inference iterations while maintaining high generation quality. More
specifically, during training, we generate data from random noise through a
reverse process under inference schedules with a few iterations, and impose a
loss to minimize the gap between the generated and ground-truth data samples.
Then, unlike existing approaches, the training of InferGrad considers the
inference process. The advantages of InferGrad are demonstrated through
experiments on the LJSpeech dataset showing that InferGrad achieves better
voice quality than the baseline WaveGrad under same conditions while
maintaining the same voice quality as the baseline but with $3$x speedup ($2$
iterations for InferGrad vs $6$ iterations for WaveGrad).
- Abstract(参考訳): 拡散確率モデル(略して拡散モデル)のノイズ化は、しばしば推論速度を遅くする最先端の生成モデルに一致するまたは超える生成品質を達成するために、推論において多くの反復を必要とする。
以前のアプローチでは、数回のイテレーションで推論スケジュールの選択を最適化し、推論をスピードアップすることを目指している。
しかし、これは主に推論プロセスがトレーニングプロセスと共同最適化することなく個別に最適化されるため、生成品質が低下する。
本稿では,推論過程をトレーニングに組み込んだvocoderの拡散モデルであるinfergradを提案する。
より具体的には、トレーニング中、数回のイテレーションで予測スケジュールの逆プロセスを通じてランダムノイズからデータを生成し、生成したデータと地上データとのギャップを最小限に抑えるために損失を課す。
そして、既存のアプローチとは異なり、infergradのトレーニングは推論プロセスを考慮する。
infergradの利点は、ljspeechデータセットの実験を通じて実証され、infergradがベースラインと同じ声質を維持しながら、同じ条件でベースラインのwavegradよりも優れた音声品質を達成していることを示している。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Can Diffusion Model Achieve Better Performance in Text Generation?
Bridging the Gap between Training and Inference! [14.979893207094221]
拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。
トレーニングと推論の間には、推論中に前処理が欠如しているため、無視できないギャップがある。
本稿では、上記のギャップを埋める単純な方法として、Distance Penalty と Adaptive Decay Sampling を提案する。
論文 参考訳(メタデータ) (2023-05-08T05:32:22Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to
Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。
従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。
本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文 参考訳(メタデータ) (2022-12-30T02:31:35Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。