論文の概要: Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation
- arxiv url: http://arxiv.org/abs/2205.06053v1
- Date: Thu, 12 May 2022 12:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 14:14:52.563596
- Title: Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation
- Title(参考訳): ハーモニック・プラスノイズ源励振を用いた統一音源GAN
- Authors: Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda
- Abstract要約: 本稿では,高調波・高調波源励振機構を備えた統一音源フィルタネットワークを提案する。
修正されたuSFGANは、音声制御性を維持しながら基本uSFGANの音質を著しく向上させる。
- 参考スコア(独自算出の注目度): 32.839539624717546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a unified source-filter network with a
harmonic-plus-noise source excitation generation mechanism. In our previous
work, we proposed unified Source-Filter GAN (uSFGAN) for developing a
high-fidelity neural vocoder with flexible voice controllability using a
unified source-filter neural network architecture. However, the capability of
uSFGAN to model the aperiodic source excitation signal is insufficient, and
there is still a gap in sound quality between the natural and generated speech.
To improve the source excitation modeling and generated sound quality, a new
source excitation generation network separately generating periodic and
aperiodic components is proposed. The advanced adversarial training procedure
of HiFiGAN is also adopted to replace that of Parallel WaveGAN used in the
original uSFGAN. Both objective and subjective evaluation results show that the
modified uSFGAN significantly improves the sound quality of the basic uSFGAN
while maintaining the voice controllability.
- Abstract(参考訳): 本稿では,高調波プラスノイズ源励振発生機構を備えた統一音源フィルタネットワークを提案する。
前回の研究で我々は、ソースフィルタニューラルネットワークアーキテクチャを用いた柔軟な音声制御が可能な高忠実度ニューラルネットワークボコーダを開発するために、ソースフィルタGAN(uSFGAN)を統一的に提案した。
しかし、uSFGANの非周期音源励起信号のモデル化能力は不十分であり、自然な音声と生成された音声の間には音質の差がある。
音源励起モデルの改善と音質向上のために,周期成分と周期成分を別々に生成する新たな音源励起生成ネットワークを提案する。
HiFiGANの高度な対向訓練手順も、元のuSFGANで使用されるパラレルウェーブGANの代わりに採用されている。
主観的および主観的評価の結果から,修正uSFGANは音声制御性を維持しつつ基本uSFGANの音質を著しく向上させることが示された。
関連論文リスト
- Radio Generation Using Generative Adversarial Networks with An Unrolled
Design [18.049453261384013]
無線生成のための新しいGANフレームワーク「Radio GAN」を開発した。
1つ目は、電波信号のサンプリング分布をモデル化することを目的としたサンプリングポイントに基づく学習である。
2つ目は、未学習のジェネレータ設計であり、予測された純粋な信号分布を前者として組み合わせることで、学習の難易度を大幅に低減することができる。
論文 参考訳(メタデータ) (2023-06-24T07:47:22Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural
Vocoder [29.219277429553788]
音源フィルタ理論をHiFi-GANに導入し,高い音質とピッチ制御性を実現する。
提案手法は,HiFi-GAN と uSFGAN を1つのCPU上での音声品質と合成速度において,歌声生成において優れる。
uSFGAN vocoder とは異なり,提案手法はリアルタイムアプリケーションやエンドツーエンドシステムに容易に適用・統合できる。
論文 参考訳(メタデータ) (2022-10-27T15:19:09Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Nonlinear Transform Source-Channel Coding for Semantic Communications [7.81628437543759]
本稿では,非線形変換の下での音源分布に密に適応できる,高効率なディープジョイントソースチャネル符号化法を提案する。
本モデルでは, 非線形変換を強みとして組み込んで, 音源のセマンティックな特徴を効果的に抽出する。
特に、NTSCC法は、その活発なコンテンツ認識能力のために、将来的なセマンティックコミュニケーションをサポートする可能性がある。
論文 参考訳(メタデータ) (2021-12-21T03:30:46Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Unified Source-Filter GAN: Unified Source-filter Network Based On
Factorization of Quasi-Periodic Parallel WaveGAN [36.12470085926042]
本稿では,単一のニューラルネットワークを用いたデータ駆動型ソースフィルタモデリング手法を提案する。
疑似周期並列波GANを分解して,uSFGAN (Unified Source-filter Generative Adversarial Network) と呼ばれるネットワークを開発した。
実験では、uSFGANがQPPWGやNSFなどの従来のニューラルボコーダを音声品質とピッチ制御性の両方で上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-10T02:38:26Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Improve GAN-based Neural Vocoder using Pointwise Relativistic
LeastSquare GAN [9.595035978417322]
位相相対論的LSGAN (Pointwise Relativistic LSGAN) という波形合成の文脈下で, LSGANフレームワークの新しい変種を紹介する。
PRLSGANは汎用フレームワークであり、GANベースのニューラルボコーダと組み合わせて生成品質を向上させることができる。
論文 参考訳(メタデータ) (2021-03-26T03:35:22Z) - Unpaired Image Enhancement with Quality-Attention Generative Adversarial
Network [92.01145655155374]
品質の注意を払わないデータに基づいて訓練された生成敵対ネットワーク(QAGAN)を提案する。
提案されたQAGANの重要な新規性は、ジェネレータの注入されたQAMにある。
提案手法は客観的評価と主観評価の両方において良好な性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T05:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。