論文の概要: WaveGrad: Estimating Gradients for Waveform Generation
- arxiv url: http://arxiv.org/abs/2009.00713v2
- Date: Fri, 9 Oct 2020 15:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 18:53:23.625585
- Title: WaveGrad: Estimating Gradients for Waveform Generation
- Title(参考訳): WaveGrad:波形生成のための勾配推定
- Authors: Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi,
William Chan
- Abstract要約: WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
- 参考スコア(独自算出の注目度): 55.405580817560754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces WaveGrad, a conditional model for waveform generation
which estimates gradients of the data density. The model is built on prior work
on score matching and diffusion probabilistic models. It starts from a Gaussian
white noise signal and iteratively refines the signal via a gradient-based
sampler conditioned on the mel-spectrogram. WaveGrad offers a natural way to
trade inference speed for sample quality by adjusting the number of refinement
steps, and bridges the gap between non-autoregressive and autoregressive models
in terms of audio quality. We find that it can generate high fidelity audio
samples using as few as six iterations. Experiments reveal WaveGrad to generate
high fidelity audio, outperforming adversarial non-autoregressive baselines and
matching a strong likelihood-based autoregressive baseline using fewer
sequential operations. Audio samples are available at
https://wavegrad.github.io/.
- Abstract(参考訳): 本稿では,データ密度の勾配を推定する波形生成条件モデルであるWaveGradを紹介する。
このモデルは、スコアマッチングと拡散確率モデルに関する先行研究に基づいて構築されている。
ガウス白色ノイズ信号から始まり、メルスペクトログラムに条件づけられた勾配ベースのサンプラーを介して反復的に信号を精錬する。
WaveGradは、改善ステップの数を調整することで、サンプル品質の推論速度を自然な方法で交換し、オーディオ品質の観点から非自己回帰モデルと自己回帰モデルのギャップを埋める。
6回の反復で高忠実度音声サンプルを生成することができることがわかった。
実験により、WaveGradは高忠実度オーディオを生成し、対向的な非自己回帰ベースラインを上回り、より少ないシーケンシャルな操作で強い可能性ベースの自己回帰ベースラインをマッチングする。
オーディオサンプルはhttps://wavegrad.github.io/で入手できる。
関連論文リスト
- DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - A Generative Model for Raw Audio Using Transformer Architectures [4.594159253008448]
本稿ではトランスフォーマーアーキテクチャを用いて波形レベルで音声合成を行う新しい手法を提案する。
本稿では,波形を生成するためのディープニューラルネットワークを提案する。
提案手法は,次のステップを予測するための類似データセットにおいて,広範に使用されているウェーブネットアーキテクチャを最大9%向上させる。
論文 参考訳(メタデータ) (2021-06-30T13:05:31Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。