論文の概要: Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation
- arxiv url: http://arxiv.org/abs/2205.06053v1
- Date: Thu, 12 May 2022 12:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:14:52.563596
- Title: Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation
- Title(参考訳): ハーモニック・プラスノイズ源励振を用いた統一音源GAN
- Authors: Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda
- Abstract要約: 本稿では,高調波・高調波源励振機構を備えた統一音源フィルタネットワークを提案する。
修正されたuSFGANは、音声制御性を維持しながら基本uSFGANの音質を著しく向上させる。
- 参考スコア(独自算出の注目度): 32.839539624717546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a unified source-filter network with a
harmonic-plus-noise source excitation generation mechanism. In our previous
work, we proposed unified Source-Filter GAN (uSFGAN) for developing a
high-fidelity neural vocoder with flexible voice controllability using a
unified source-filter neural network architecture. However, the capability of
uSFGAN to model the aperiodic source excitation signal is insufficient, and
there is still a gap in sound quality between the natural and generated speech.
To improve the source excitation modeling and generated sound quality, a new
source excitation generation network separately generating periodic and
aperiodic components is proposed. The advanced adversarial training procedure
of HiFiGAN is also adopted to replace that of Parallel WaveGAN used in the
original uSFGAN. Both objective and subjective evaluation results show that the
modified uSFGAN significantly improves the sound quality of the basic uSFGAN
while maintaining the voice controllability.
- Abstract(参考訳): 本稿では,高調波プラスノイズ源励振発生機構を備えた統一音源フィルタネットワークを提案する。
前回の研究で我々は、ソースフィルタニューラルネットワークアーキテクチャを用いた柔軟な音声制御が可能な高忠実度ニューラルネットワークボコーダを開発するために、ソースフィルタGAN(uSFGAN)を統一的に提案した。
しかし、uSFGANの非周期音源励起信号のモデル化能力は不十分であり、自然な音声と生成された音声の間には音質の差がある。
音源励起モデルの改善と音質向上のために,周期成分と周期成分を別々に生成する新たな音源励起生成ネットワークを提案する。
HiFiGANの高度な対向訓練手順も、元のuSFGANで使用されるパラレルウェーブGANの代わりに採用されている。
主観的および主観的評価の結果から,修正uSFGANは音声制御性を維持しつつ基本uSFGANの音質を著しく向上させることが示された。
関連論文リスト
- Gan-Based Joint Activity Detection and Channel Estimation For Grant-free
Random Access [10.586509586304771]
JADCE問題に対処するために,GAN(Generative Adversarial Network)に基づく新しいモデル自由学習手法を提案する。
擬似逆数の性質を活用することにより、アフィン投影とスキップ接続を用いてジェネレータを洗練する。
提案手法は, 高SNR方式における既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-04T12:35:37Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Nonlinear Transform Source-Channel Coding for Semantic Communications [7.81628437543759]
本稿では,非線形変換の下での音源分布に密に適応できる,高効率なディープジョイントソースチャネル符号化法を提案する。
本モデルでは, 非線形変換を強みとして組み込んで, 音源のセマンティックな特徴を効果的に抽出する。
特に、NTSCC法は、その活発なコンテンツ認識能力のために、将来的なセマンティックコミュニケーションをサポートする可能性がある。
論文 参考訳(メタデータ) (2021-12-21T03:30:46Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Unified Source-Filter GAN: Unified Source-filter Network Based On
Factorization of Quasi-Periodic Parallel WaveGAN [36.12470085926042]
本稿では,単一のニューラルネットワークを用いたデータ駆動型ソースフィルタモデリング手法を提案する。
疑似周期並列波GANを分解して,uSFGAN (Unified Source-filter Generative Adversarial Network) と呼ばれるネットワークを開発した。
実験では、uSFGANがQPPWGやNSFなどの従来のニューラルボコーダを音声品質とピッチ制御性の両方で上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-10T02:38:26Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Improve GAN-based Neural Vocoder using Pointwise Relativistic
LeastSquare GAN [9.595035978417322]
位相相対論的LSGAN (Pointwise Relativistic LSGAN) という波形合成の文脈下で, LSGANフレームワークの新しい変種を紹介する。
PRLSGANは汎用フレームワークであり、GANベースのニューラルボコーダと組み合わせて生成品質を向上させることができる。
論文 参考訳(メタデータ) (2021-03-26T03:35:22Z) - Unpaired Image Enhancement with Quality-Attention Generative Adversarial
Network [92.01145655155374]
品質の注意を払わないデータに基づいて訓練された生成敵対ネットワーク(QAGAN)を提案する。
提案されたQAGANの重要な新規性は、ジェネレータの注入されたQAMにある。
提案手法は客観的評価と主観評価の両方において良好な性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T05:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。