論文の概要: FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for
Speech Synthesis
- arxiv url: http://arxiv.org/abs/2109.13675v1
- Date: Mon, 27 Sep 2021 06:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 06:18:49.175557
- Title: FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for
Speech Synthesis
- Title(参考訳): flowvocoder: 音声合成のための小形ニューラルネットワークvocoderに基づく正規化フロー
- Authors: Manh Luong and Viet Anh Tran
- Abstract要約: WaveGlowのような非自己回帰型ニューラルボコーダは、音声信号のモデリングに関して、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。
NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダである。
メモリフットプリントが小さく,高忠実度オーディオをリアルタイムに生成できるFlowVocoderを提案する。
- 参考スコア(独自算出の注目度): 2.4975981795360847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, non-autoregressive neural vocoders have provided remarkable
performance in generating high-fidelity speech and have been able to produce
synthetic speech in real-time. However, non-autoregressive neural vocoders such
as WaveGlow are far behind autoregressive neural vocoders like WaveFlow in
terms of modeling audio signals due to their limitation in expressiveness. In
addition, though NanoFlow is a state-of-the-art autoregressive neural vocoder
that has immensely small parameters, its performance is marginally lower than
WaveFlow. Therefore, in this paper, we propose a new type of autoregressive
neural vocoder called FlowVocoder, which has a small memory footprint and is
able to generate high-fidelity audio in real-time. Our proposed model improves
the expressiveness of flow blocks by operating a mixture of Cumulative
Distribution Function(CDF) for bipartite transformation. Hence, the proposed
model is capable of modeling waveform signals as well as WaveFlow, while its
memory footprint is much smaller thanWaveFlow. As shown in experiments,
FlowVocoder achieves competitive results with baseline methods in terms of both
subjective and objective evaluation, also, it is more suitable for real-time
text-to-speech applications.
- Abstract(参考訳): 近年,非自己回帰型ニューラルボコーダは高忠実度音声の生成に優れ,リアルタイムに合成音声を生成することができる。
しかし、WaveGlowのような非自己回帰型ニューラルボコーダは、表現性の制限による音声信号のモデリングにおいて、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。
さらに、NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダであるが、その性能はWaveFlowよりも極端に低い。
そこで本研究では,メモリフットプリントが小さく,高忠実度音声をリアルタイムに生成できるFlowVocoderという,新しいタイプの自己回帰型ニューラルボコーダを提案する。
提案モデルでは,2部変換のための累積分布関数(CDF)の混合操作により,フローブロックの表現性を向上する。
したがって,提案モデルでは波形信号とWaveFlowをモデル化できるが,メモリフットプリントはWaveFlowよりはるかに小さい。
実験で示されているように、flowvocoderは主観的評価と客観的評価の両方の観点から、ベースラインメソッドと競合する結果を達成している。
関連論文リスト
- PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a
Diffusion Probabilistic Model [12.292092677396349]
本稿では,拡散確率モデル(DDPM)に基づくニューラルボコーダを提案する。
本モデルは,音声波形の周期的構造を明示的な周期的信号を組み込むことで正確に把握することを目的としている。
実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。
論文 参考訳(メタデータ) (2024-02-22T16:47:15Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration [47.07494621683752]
本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
論文 参考訳(メタデータ) (2022-10-03T15:45:05Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。