論文の概要: BigVGAN: A Universal Neural Vocoder with Large-Scale Training
- arxiv url: http://arxiv.org/abs/2206.04658v1
- Date: Thu, 9 Jun 2022 17:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 16:23:12.186321
- Title: BigVGAN: A Universal Neural Vocoder with Large-Scale Training
- Title(参考訳): BigVGAN:大規模トレーニングを備えたユニバーサルニューラルヴォコーダ
- Authors: Sang-gil Lee, Wei Ping, Boris Ginsburg, Bryan Catanzaro, Sungroh Yoon
- Abstract要約: ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
- 参考スコア(独自算出の注目度): 49.16254684584935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in generative adversarial network(GAN)-based
vocoders, where the model generates raw waveform conditioned on mel
spectrogram, it is still challenging to synthesize high-fidelity audio for
numerous speakers across varied recording environments. In this work, we
present BigVGAN, a universal vocoder that generalizes well under various unseen
conditions in zero-shot setting. We introduce periodic nonlinearities and
anti-aliased representation into the generator, which brings the desired
inductive bias for waveform synthesis and significantly improves audio quality.
Based on our improved generator and the state-of-the-art discriminators, we
train our GAN vocoder at the largest scale up to 112M parameters, which is
unprecedented in the literature. In particular, we identify and address the
training instabilities specific to such scale, while maintaining high-fidelity
output without over-regularization. Our BigVGAN achieves the state-of-the-art
zero-shot performance for various out-of-distribution scenarios, including new
speakers, novel languages, singing voices, music and instrumental audio in
unseen (even noisy) recording environments. We will release our code and model
at: https://github.com/NVIDIA/BigVGAN
- Abstract(参考訳): 近年のGAN(Generative Adversarial Network)ベースのボコーダは,メルスペクトログラムをベースとした生波形を生成するが,様々な録音環境における多数の話者を対象とした高忠実度音声の合成は依然として困難である。
本稿では,ゼロショット設定において,様々な未知条件下でよく一般化するユニバーサルボコーダであるbigvganを提案する。
生成器に周期的非線形性やアンチエイリアス表現を導入し、波形合成に所望の帰納バイアスをもたらし、音質を大幅に改善する。
改良されたジェネレータと最先端の判別器に基づいて、gan vocoderを最大112mのパラメータでトレーニングします。
特に,高忠実度出力を過正規化せずに維持しつつ,このようなスケール特有のトレーニング不安定性を特定し,対処する。
我々のBigVGANは、新しい話者、新しい言語、歌声、音楽、楽器の録音環境など、様々なアウト・オブ・ディストリビューションシナリオに対して、最先端のゼロショットパフォーマンスを実現しています。
コードとモデルについては、https://github.com/NVIDIA/BigVGANで公開します。
関連論文リスト
- WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders [14.222389985736422]
VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-08-13T14:00:02Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains [1.8047694351309207]
複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
論文 参考訳(メタデータ) (2020-11-19T03:35:45Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。