論文の概要: RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses
- arxiv url: http://arxiv.org/abs/2111.00962v2
- Date: Tue, 2 Nov 2021 09:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 11:04:05.520839
- Title: RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses
- Title(参考訳): refinegan: 精度の高いピッチと強度応答を持つグラウンド真理よりも優れた波形を普遍的に生成する
- Authors: Shengyuan Xu, Wenxiao Zhao, Jing Guo
- Abstract要約: 高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
- 参考スコア(独自算出の注目度): 15.599745604729842
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most GAN(Generative Adversarial Network)-based approaches towards
high-fidelity waveform generation heavily rely on discriminators to improve
their performance. However, the over-use of this GAN method introduces much
uncertainty into the generation process and often result in mismatches of pitch
and intensity, which is fatal when it comes to sensitive using cases such as
singing voice synthesis(SVS). To address this problem, we propose RefineGAN, a
high-fidelity neural vocoder with faster-than-real-time generation capability,
and focused on the robustness, pitch and intensity accuracy, and full-band
audio generation. We employed a pitch-guided refine architecture with a
multi-scale spectrogram-based loss function to help stabilize the training
process and maintain the robustness of the neural vocoder while using the
GAN-based training method. Audio generated using this method shows a better
performance in subjective tests when compared with the ground-truth audio. This
result shows that the fidelity is even improved during the waveform
reconstruction by eliminating defects produced by the speaker and the recording
procedure. Moreover, a further study shows that models trained on a specified
type of data can perform on totally unseen language and unseen speaker
identically well. Generated sample pairs are provided on
https://timedomain-tech.github.io/refinegan/.
- Abstract(参考訳): GAN(Generative Adversarial Network)に基づく高忠実度波形生成へのアプローチの多くは、その性能向上のために識別器に大きく依存している。
しかし、このGAN法の過剰使用は、生成過程に大きな不確実性をもたらし、しばしばピッチと強度のミスマッチを引き起こし、歌声合成(SVS)のような敏感なケースでは致命的である。
この問題に対処するため,高速な実時間生成機能を備えた高忠実なニューラルボコーダであるRefineGANを提案し,ロバスト性,ピッチと強度の精度,フルバンドオーディオ生成に着目した。
学習過程の安定化と神経ボコーダのロバスト性を維持するために,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型洗練アーキテクチャを用いた。
この方法で生成された音声は、地中音と比較した場合、主観的テストにおいて優れた性能を示す。
この結果から, スピーカが生み出す欠陥や記録処理を除去することにより, 波形再構成時の忠実度も向上した。
さらに、ある特定の種類のデータに基づいて訓練されたモデルが、全く見えない言語と目に見えない話者で同じように機能することを示した。
生成されたサンプルペアはhttps://timedomain-tech.github.io/refinegan/で提供される。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。