論文の概要: WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2106.09660v1
- Date: Thu, 17 Jun 2021 17:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:34:57.975441
- Title: WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis
- Title(参考訳): WaveGrad 2: テキスト音声合成のための反復的リファインメント
- Authors: Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi,
Najim Dehak, William Chan
- Abstract要約: WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
- 参考スコア(独自算出の注目度): 80.60577805727624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces WaveGrad 2, a non-autoregressive generative model for
text-to-speech synthesis. WaveGrad 2 is trained to estimate the gradient of the
log conditional density of the waveform given a phoneme sequence. The model
takes an input phoneme sequence, and through an iterative refinement process,
generates an audio waveform. This contrasts to the original WaveGrad vocoder
which conditions on mel-spectrogram features, generated by a separate model.
The iterative refinement process starts from Gaussian noise, and through a
series of refinement steps (e.g., 50 steps), progressively recovers the audio
sequence. WaveGrad 2 offers a natural way to trade-off between inference speed
and sample quality, through adjusting the number of refinement steps.
Experiments show that the model can generate high fidelity audio, approaching
the performance of a state-of-the-art neural TTS system. We also report various
ablation studies over different model configurations. Audio samples are
available at https://wavegrad.github.io/v2.
- Abstract(参考訳): 本稿では,音声合成のための非自己回帰生成モデルWaveGrad 2を提案する。
WaveGrad 2は、音素列が与えられた波形の対数条件密度の勾配を推定するために訓練される。
モデルは入力音素シーケンスを受け取り、反復的な改良プロセスを通じて音声波形を生成する。
これは、別のモデルによって生成されるメル・スペクトログラムの特徴を条件とする元のwavegrad vocoderとは対照的である。
反復的な精錬プロセスはガウスノイズから始まり、一連の精錬ステップ(例:50ステップ)を通じて徐々にオーディオシーケンスを復元する。
wavegrad 2は、改良ステップの数を調整することによって、推論速度とサンプル品質のトレードオフを自然な方法で提供する。
実験により、このモデルは高忠実度オーディオを生成でき、最先端のニューラルTSシステムの性能に近づいた。
また,異なるモデル構成に関する様々なアブレーション研究についても報告する。
オーディオサンプルはhttps://wavegrad.github.io/v2で入手できる。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - A Generative Model for Raw Audio Using Transformer Architectures [4.594159253008448]
本稿ではトランスフォーマーアーキテクチャを用いて波形レベルで音声合成を行う新しい手法を提案する。
本稿では,波形を生成するためのディープニューラルネットワークを提案する。
提案手法は,次のステップを予測するための類似データセットにおいて,広範に使用されているウェーブネットアーキテクチャを最大9%向上させる。
論文 参考訳(メタデータ) (2021-06-30T13:05:31Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。