論文の概要: NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation
- arxiv url: http://arxiv.org/abs/2203.02678v1
- Date: Sat, 5 Mar 2022 08:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:48:16.715063
- Title: NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation
- Title(参考訳): neuraldps: 雑音制御波形生成のためのマルチバンド励起を用いた神経決定論的+確率モデル
- Authors: Tao Wang, Ruibo Fu, Jiangyan Yi, Jianhua Tao, Zhengqi Wen
- Abstract要約: 本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
- 参考スコア(独自算出の注目度): 67.96138567288197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The traditional vocoders have the advantages of high synthesis efficiency,
strong interpretability, and speech editability, while the neural vocoders have
the advantage of high synthesis quality. To combine the advantages of two
vocoders, inspired by the traditional deterministic plus stochastic model, this
paper proposes a novel neural vocoder named NeuralDPS which can retain high
speech quality and acquire high synthesis efficiency and noise controllability.
Firstly, this framework contains four modules: a deterministic source module, a
stochastic source module, a neural V/UV decision module and a neural filter
module. The input required by the vocoder is just the spectral parameter, which
avoids the error caused by estimating additional parameters, such as F0.
Secondly, to solve the problem that different frequency bands may have
different proportions of deterministic components and stochastic components, a
multiband excitation strategy is used to generate a more accurate excitation
signal and reduce the neural filter's burden. Thirdly, a method to control
noise components of speech is proposed. In this way, the signal-to-noise ratio
(SNR) of speech can be adjusted easily. Objective and subjective experimental
results show that our proposed NeuralDPS vocoder can obtain similar performance
with the WaveNet and it generates waveforms at least 280 times faster than the
WaveNet vocoder. It is also 28% faster than WaveGAN's synthesis efficiency on a
single CPU core. We have also verified through experiments that this method can
effectively control the noise components in the predicted speech and adjust the
SNR of speech. Examples of generated speech can be found at
https://hairuo55.github.io/NeuralDPS.
- Abstract(参考訳): 従来のボコーダは高い合成効率、強い解釈性、音声編集性という利点があるが、ニューラルボコーダは高い合成品質の利点を持っている。
本稿では,従来の決定論的・確率的モデルにインスパイアされた2つのボコーダの利点を組み合わせるために,ニューラルDPSと呼ばれるニューラルボコーダを提案する。
まず、このフレームワークは、決定的ソースモジュール、確率的ソースモジュール、ニューラルV/UV決定モジュール、ニューラルフィルタモジュールの4つのモジュールを含む。
ボコーダが要求する入力はスペクトルパラメータのみであり、f0のような追加パラメータを推定することで生じるエラーを避ける。
第二に、異なる周波数帯域が決定論的成分と確率的成分の比率が異なるという問題を解決するために、より正確な励起信号を生成し、ニューラルネットワークの負担を軽減するためにマルチバンド励起戦略を用いる。
第3に,音声の雑音成分を制御する手法を提案する。
これにより、音声の信号対雑音比(SNR)を容易に調整できる。
主観的および主観的な実験結果から,提案するNeuralDPSボコーダはWaveNetと同等の性能を示し,ウェーブネットよりも少なくとも280倍高速な波形を生成する。
また、単一のCPUコア上でのWaveGANの合成効率よりも28%高速である。
また,本手法が予測音声の雑音成分を効果的に制御し,音声のSNRを調整できることを実験により検証した。
生成された音声の例はhttps://hairuo55.github.io/NeuralDPSにある。
関連論文リスト
- PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a
Diffusion Probabilistic Model [12.292092677396349]
本稿では,拡散確率モデル(DDPM)に基づくニューラルボコーダを提案する。
本モデルは,音声波形の周期的構造を明示的な周期的信号を組み込むことで正確に把握することを目的としている。
実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。
論文 参考訳(メタデータ) (2024-02-22T16:47:15Z) - WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on
Fixed-Point Iteration [47.07494621683752]
本研究では,TextitWaveFitと呼ばれる高速で高品質なニューラルボコーダを提案する。
WaveFitは、GANの本質を固定点反復に基づくDDPMのような反復フレームワークに統合します。
主観的聴力試験では,人間の自然な発話と5つの反復によるWaveFitで合成された音声の自然性に統計的に有意な差は認められなかった。
論文 参考訳(メタデータ) (2022-10-03T15:45:05Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - FlowVocoder: A small Footprint Neural Vocoder based Normalizing flow for
Speech Synthesis [2.4975981795360847]
WaveGlowのような非自己回帰型ニューラルボコーダは、音声信号のモデリングに関して、WaveFlowのような自己回帰型ニューラルボコーダよりもはるかに遅れている。
NanoFlowは、非常に小さなパラメータを持つ最先端の自己回帰型神経ボコーダである。
メモリフットプリントが小さく,高忠実度オーディオをリアルタイムに生成できるFlowVocoderを提案する。
論文 参考訳(メタデータ) (2021-09-27T06:52:55Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。