論文の概要: WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration
- arxiv url: http://arxiv.org/abs/2210.01029v1
- Date: Mon, 3 Oct 2022 15:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:40:16.476724
- Title: WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration
- Title(参考訳): WaveFit:固定点反復に基づく反復・非自己回帰型ニューラルボコーダ
- Authors: Yuma Koizumi, Kohei Yatabe, Heiga Zen, Michiel Bacchiani
- Abstract要約: 本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
- 参考スコア(独自算出の注目度): 47.07494621683752
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Denoising diffusion probabilistic models (DDPMs) and generative adversarial
networks (GANs) are popular generative models for neural vocoders. The DDPMs
and GANs can be characterized by the iterative denoising framework and
adversarial training, respectively. This study proposes a fast and high-quality
neural vocoder called \textit{WaveFit}, which integrates the essence of GANs
into a DDPM-like iterative framework based on fixed-point iteration. WaveFit
iteratively denoises an input signal, and trains a deep neural network (DNN)
for minimizing an adversarial loss calculated from intermediate outputs at all
iterations. Subjective (side-by-side) listening tests showed no statistically
significant differences in naturalness between human natural speech and those
synthesized by WaveFit with five iterations. Furthermore, the inference speed
of WaveFit was more than 240 times faster than WaveRNN. Audio demos are
available at \url{google.github.io/df-conformer/wavefit/}.
- Abstract(参考訳): denoising diffusion probabilistic models (ddpms) とgenerative adversarial networks (gans) はニューラルボコーダの一般的な生成モデルである。
DDPM と GAN はそれぞれ反復的認知の枠組みと敵の訓練によって特徴づけられる。
本研究は,ganのエッセンスを固定点反復に基づくddpmライクな反復フレームワークに統合した,高速かつ高品質なニューラルボコーダである \textit{wavefit} を提案する。
WaveFitは入力信号を反復的に復調し、全てのイテレーションで中間出力から計算された対角損失を最小限に抑えるためにディープニューラルネットワーク(DNN)を訓練する。
主観的聴力検査では,人間の自然音声とwavefit合成音声との間に統計的に有意な差は認められなかった。
さらに、WaveFitの推論速度はWaveRNNの240倍以上の速度であった。
オーディオデモは \url{google.github.io/df-conformer/wavefit/} で利用可能である。
関連論文リスト
- PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a
Diffusion Probabilistic Model [12.292092677396349]
本稿では,拡散確率モデル(DDPM)に基づくニューラルボコーダを提案する。
本モデルは,音声波形の周期的構造を明示的な周期的信号を組み込むことで正確に把握することを目的としている。
実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。
論文 参考訳(メタデータ) (2024-02-22T16:47:15Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for
Speech Synthesis [2.4975981795360847]
WaveGlowのような非自己回帰型ニューラルボコーダは、音声信号のモデリングに関して、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。
NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダである。
メモリフットプリントが小さく,高忠実度オーディオをリアルタイムに生成できるFlowVocoderを提案する。
論文 参考訳(メタデータ) (2021-09-27T06:52:55Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。