論文の概要: Unified Source-Filter GAN: Unified Source-filter Network Based On
Factorization of Quasi-Periodic Parallel WaveGAN
- arxiv url: http://arxiv.org/abs/2104.04668v2
- Date: Tue, 13 Apr 2021 03:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 11:13:21.875078
- Title: Unified Source-Filter GAN: Unified Source-filter Network Based On
Factorization of Quasi-Periodic Parallel WaveGAN
- Title(参考訳): 統一ソースフィルタgan:準周期並列ウェーブガンの因子分解に基づく統一ソースフィルタネットワーク
- Authors: Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda
- Abstract要約: 本稿では,単一のニューラルネットワークを用いたデータ駆動型ソースフィルタモデリング手法を提案する。
疑似周期並列波GANを分解して,uSFGAN (Unified Source-filter Generative Adversarial Network) と呼ばれるネットワークを開発した。
実験では、uSFGANがQPPWGやNSFなどの従来のニューラルボコーダを音声品質とピッチ制御性の両方で上回っていることが示された。
- 参考スコア(独自算出の注目度): 36.12470085926042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a unified approach to data-driven source-filter modeling using a
single neural network for developing a neural vocoder capable of generating
high-quality synthetic speech waveforms while retaining flexibility of the
source-filter model to control their voice characteristics. Our proposed
network called unified source-filter generative adversarial networks (uSFGAN)
is developed by factorizing quasi-periodic parallel WaveGAN (QPPWG), one of the
neural vocoders based on a single neural network, into a source excitation
generation network and a vocal tract resonance filtering network by
additionally implementing a regularization loss. Moreover, inspired by neural
source filter (NSF), only a sinusoidal waveform is additionally used as the
simplest clue to generate a periodic source excitation waveform while
minimizing the effect of approximations in the source filter model. The
experimental results demonstrate that uSFGAN outperforms conventional neural
vocoders, such as QPPWG and NSF in both speech quality and pitch
controllability.
- Abstract(参考訳): 音源フィルタモデルの柔軟性を維持しながら、高品質な合成音声波形を生成できるニューラルボコーダを開発するために、単一ニューラルネットワークを用いたデータ駆動音源フィルタモデリングに統一的なアプローチを提案する。
今回提案するunified source-filter generative adversarial network (usfgan) と呼ばれるネットワークは,単一のニューラルネットワークに基づくニューラルボコーダの1つである準周期並列ウェーブガン (qppwg) を,音源励振生成ネットワークと声道共鳴フィルタリングネットワークに分解し,さらに正規化損失を実装した。
さらに、ニューラルソースフィルタ(NSF)にインスパイアされた正弦波波形のみが、ソースフィルタモデルにおける近似の影響を最小限に抑えつつ、周期的なソース励起波形を生成するための最も簡単な手がかりとして用いられる。
実験の結果,uSFGANはQPPWGやNSFといった従来のニューラルボコーダよりも音声品質とピッチ制御性に優れていた。
関連論文リスト
- PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a
Diffusion Probabilistic Model [12.292092677396349]
本稿では,拡散確率モデル(DDPM)に基づくニューラルボコーダを提案する。
本モデルは,音声波形の周期的構造を明示的な周期的信号を組み込むことで正確に把握することを目的としている。
実験の結果,従来のDDPM方式のニューラルボコーダよりも音質が向上し,ピッチ制御が向上した。
論文 参考訳(メタデータ) (2024-02-22T16:47:15Z) - Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural
Vocoder [29.219277429553788]
音源フィルタ理論をHiFi-GANに導入し,高い音質とピッチ制御性を実現する。
提案手法は,HiFi-GAN と uSFGAN を1つのCPU上での音声品質と合成速度において,歌声生成において優れる。
uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。
論文 参考訳(メタデータ) (2022-10-27T15:19:09Z) - Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation [32.839539624717546]
本稿では,高調波・高調波源励振機構を備えた統一音源フィルタネットワークを提案する。
修正されたuSFGANは、音声制御性を維持しながら基本uSFGANの音質を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-12T12:41:15Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Deep Learning for the Benes Filter [91.3755431537592]
本研究では,メッシュのないニューラルネットワークによるベンズモデルの解の密度の表現に基づく新しい数値計算法を提案する。
ニューラルネットワークの領域選択におけるフィルタリングモデル方程式における非線形性の役割について論じる。
論文 参考訳(メタデータ) (2022-03-09T14:08:38Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Frequency-bin entanglement from domain-engineered down-conversion [101.18253437732933]
フィルタや共振器の共振器を用いない離散周波数ビン絡みの単一パス源を提案する。
ドメインエンジニアリングされた非線形結晶を用いて、通信波長で8モードの周波数ビン絡み合った光源を生成する。
論文 参考訳(メタデータ) (2022-01-18T19:00:29Z) - Improve GAN-based Neural Vocoder using Pointwise Relativistic
LeastSquare GAN [9.595035978417322]
位相相対論的LSGAN (Pointwise Relativistic LSGAN) という波形合成の文脈下で, LSGANフレームワークの新しい変種を紹介する。
PRLSGANは汎用フレームワークであり、GANベースのニューラルボコーダと組み合わせて生成品質を向上させることができる。
論文 参考訳(メタデータ) (2021-03-26T03:35:22Z) - Noise Homogenization via Multi-Channel Wavelet Filtering for
High-Fidelity Sample Generation in GANs [47.92719758687014]
GAN(Generative Adversarial Networks)のための新しいマルチチャネルウェーブレットに基づくフィルタリング手法を提案する。
ジェネレータにウェーブレットのデコンボリューション層を埋め込むと、結果のGANであるWaveletGANがウェーブレットのデコンボリューションを利用して複数のチャネルによるフィルタリングを学習する。
オープンGANベンチマークツールを用いて,Fashion-MNIST,KMNIST,SVHNデータセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2020-05-14T03:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。