論文の概要: Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains
- arxiv url: http://arxiv.org/abs/2011.09631v2
- Date: Thu, 4 Mar 2021 02:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:43:05.777824
- Title: Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains
- Title(参考訳): Universal MelGAN:複数領域における高密度波形生成のためのロバストニューラルネットワーク
- Authors: Won Jang, Dan Lim, Jaesam Yoon
- Abstract要約: 複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
- 参考スコア(独自算出の注目度): 1.8047694351309207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Universal MelGAN, a vocoder that synthesizes high-fidelity speech
in multiple domains. To preserve sound quality when the MelGAN-based structure
is trained with a dataset of hundreds of speakers, we added multi-resolution
spectrogram discriminators to sharpen the spectral resolution of the generated
waveforms. This enables the model to generate realistic waveforms of
multi-speakers, by alleviating the over-smoothing problem in the high frequency
band of the large footprint model. Our structure generates signals close to
ground-truth data without reducing the inference speed, by discriminating the
waveform and spectrogram during training. The model achieved the best mean
opinion score (MOS) in most scenarios using ground-truth mel-spectrogram as an
input. Especially, it showed superior performance in unseen domains with regard
of speaker, emotion, and language. Moreover, in a multi-speaker text-to-speech
scenario using mel-spectrogram generated by a transformer model, it synthesized
high-fidelity speech of 4.22 MOS. These results, achieved without external
domain information, highlight the potential of the proposed model as a
universal vocoder.
- Abstract(参考訳): 複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
数百人の話者のデータセットを用いてMelGANに基づく構造を訓練した場合の音質を維持するため,生成波形のスペクトル分解能を高めるため,マルチレゾリューション・スペクトログラム判別器を追加した。
これにより、大型フットプリントモデルの高周波帯域における過平滑化問題を緩和し、マルチスピーカの現実的な波形を生成することができる。
学習中に波形とスペクトログラムを識別することにより、推定速度を低下させることなく、地中データに近い信号を生成する。
このモデルでは,入力としてグラウンドトルース・メル・スペクトログラムを用いて,ほとんどのシナリオで最高の平均世論スコア(MOS)を得た。
特に, 話者, 感情, 言語に関して, 未認識領域において優れた性能を示した。
さらに,変換器モデルで生成したメルスペクトルを用いたマルチスピーカ音声合成では,4.22MOSの高忠実度音声を合成した。
これらの結果は、外部のドメイン情報なしで達成され、普遍的なボコーダとして提案モデルの可能性を強調している。
関連論文リスト
- VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders [14.222389985736422]
VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-08-13T14:00:02Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。