論文の概要: VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested
Adversarial Network
- arxiv url: http://arxiv.org/abs/2007.15256v1
- Date: Thu, 30 Jul 2020 06:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 15:00:02.828785
- Title: VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested
Adversarial Network
- Title(参考訳): VocGAN:階層型逆数ネットワークを持つ高忠実リアルタイムヴォコーダ
- Authors: Jinhyeok Yang, Junmo Lee, Youngik Kim, Hoonyoung Cho, Injung Kim
- Abstract要約: 最近開発されたGANベースのボコーダであるMelGANは、音声波形をリアルタイムで生成する。
VocGANはMelGANとほぼ同じ速度であるが、出力波形の品質と一貫性を著しく向上させる。
実験では、VocGANはGTX 1080Ti GPUでは416.7倍、CPUでは3.24倍の速さで音声波形を合成する。
- 参考スコア(独自算出の注目度): 9.274656542624658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel high-fidelity real-time neural vocoder called VocGAN. A
recently developed GAN-based vocoder, MelGAN, produces speech waveforms in
real-time. However, it often produces a waveform that is insufficient in
quality or inconsistent with acoustic characteristics of the input mel
spectrogram. VocGAN is nearly as fast as MelGAN, but it significantly improves
the quality and consistency of the output waveform. VocGAN applies a
multi-scale waveform generator and a hierarchically-nested discriminator to
learn multiple levels of acoustic properties in a balanced way. It also applies
the joint conditional and unconditional objective, which has shown successful
results in high-resolution image synthesis. In experiments, VocGAN synthesizes
speech waveforms 416.7x faster on a GTX 1080Ti GPU and 3.24x faster on a CPU
than real-time. Compared with MelGAN, it also exhibits significantly improved
quality in multiple evaluation metrics including mean opinion score (MOS) with
minimal additional overhead. Additionally, compared with Parallel WaveGAN,
another recently developed high-fidelity vocoder, VocGAN is 6.98x faster on a
CPU and exhibits higher MOS.
- Abstract(参考訳): 本稿では、vocganと呼ばれる新しい高忠実度リアルタイムニューラルネットワークボコーダを提案する。
最近開発されたGANベースのボコーダMelGANは、音声波形をリアルタイムで生成する。
しかし、しばしば、入力されたメル分光図の音響特性と一致しない品質が不十分な波形を生成する。
VocGANはMelGANとほぼ同じ速度であるが、出力波形の品質と一貫性を著しく向上させる。
VocGANは、複数レベルの音響特性をバランスよく学習するために、マルチスケールの波形生成器と階層的な判別器を適用している。
また、ジョイント条件と非条件の目的も適用し、高分解能画像合成に成功している。
実験では、vocganはgtx 1080ti gpuで416.7倍、cpuで3.24倍の速度で音声波形を合成する。
MelGANと比較すると、平均評価スコア(MOS)を含む複数の評価指標において、オーバーヘッドが最小限に抑えられた品質も大幅に向上している。
さらに、最近開発された別の高忠実なボコーダであるParallel WaveGANと比較して、VocGANはCPUの6.98倍高速で、より高いMOSを示す。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity [23.49462995118466]
フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
論文 参考訳(メタデータ) (2022-12-08T19:38:34Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains [1.8047694351309207]
複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
論文 参考訳(メタデータ) (2020-11-19T03:35:45Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z) - HiFi-GAN: Generative Adversarial Networks for Efficient and High
Fidelity Speech Synthesis [12.934180951771596]
効率と高忠実度音声合成を実現するHiFi-GANを提案する。
単一話者データセットの主観的人的評価は,提案手法が人的品質と類似性を示すことを示している。
HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-12T12:33:43Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。