論文の概要: Avocodo: Generative Adversarial Network for Artifact-free Vocoder
- arxiv url: http://arxiv.org/abs/2206.13404v2
- Date: Tue, 28 Jun 2022 04:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 12:11:55.314835
- Title: Avocodo: Generative Adversarial Network for Artifact-free Vocoder
- Title(参考訳): avocodo:アーティファクトフリーvocoderのための生成的広告ネットワーク
- Authors: Taejun Bak, Junmo Lee, Hanbin Bae, Jinhyeok Yang, Jae-Sung Bae,
Young-Sun Joo
- Abstract要約: 本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
- 参考スコア(独自算出の注目度): 5.956832212419584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural vocoders based on the generative adversarial neural network (GAN) have
been widely used due to their fast inference speed and lightweight networks
while generating high-quality speech waveforms. Since the perceptually
important speech components are primarily concentrated in the low-frequency
band, most of the GAN-based neural vocoders perform multi-scale analysis that
evaluates downsampled speech waveforms. This multi-scale analysis helps the
generator improve speech intelligibility. However, in preliminary experiments,
we observed that the multi-scale analysis which focuses on the low-frequency
band causes unintended artifacts, e.g., aliasing and imaging artifacts, and
these artifacts degrade the synthesized speech waveform quality. Therefore, in
this paper, we investigate the relationship between these artifacts and
GAN-based neural vocoders and propose a GAN-based neural vocoder, called
Avocodo, that allows the synthesis of high-fidelity speech with reduced
artifacts. We introduce two kinds of discriminators to evaluate waveforms in
various perspectives: a collaborative multi-band discriminator and a sub-band
discriminator. We also utilize a pseudo quadrature mirror filter bank to obtain
downsampled multi-band waveforms while avoiding aliasing. The experimental
results show that Avocodo outperforms conventional GAN-based neural vocoders in
both speech and singing voice synthesis tasks and can synthesize artifact-free
speech. Especially, Avocodo is even capable to reproduce high-quality waveforms
of unseen speakers.
- Abstract(参考訳): GAN(Generative Adversarial Neural Network)に基づくニューラルヴォコーダは、高速な推論速度と軽量なネットワークにより、高品質な音声波形を生成しながら広く利用されている。
知覚的に重要な音声成分は主に低周波帯域に集中しているため、ganベースのニューラルボコーダのほとんどは、ダウンサンプリングされた音声波形を評価するマルチスケール分析を行う。
このマルチスケール解析は、生成器の音声理解性を改善するのに役立つ。
しかし,予備実験では,低周波帯域に着目したマルチスケール解析が意図しないアーティファクト,例えばエイリアスやイメージングアーティファクトを引き起こし,これらのアーティファクトが合成音声波形品質を劣化させることがわかった。
そこで本稿では,これらの成果物とganに基づくニューラルボコーダの関係を調査し,アーティファクトを低減した高忠実性音声の合成を可能にするganベースのニューラルボコーダであるavocodoを提案する。
本稿では,多バンド識別器とサブバンド識別器の2種類の波形評価法を提案する。
また,擬似二次ミラーフィルタバンクを用いて,アリアシングを回避しつつ,ダウンサンプリングされたマルチバンド波形を得る。
実験の結果,Avocodo は従来の GAN ベースのニューラルボコーダを音声合成と歌唱の両方で上回り,人工音声を合成できることがわかった。
特にアボコドは、見当たらない話者の高品質な波形を再現できる。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Fre-GAN: Adversarial Frequency-consistent Audio Synthesis [39.69759686729388]
Fre-GANは、周波数一貫性のある音声合成を実現する。
Fre-GANは0.03 MOSのギャップを持つ高忠実な波形を生成する。
論文 参考訳(メタデータ) (2021-06-04T07:12:39Z) - Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains [1.8047694351309207]
複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
論文 参考訳(メタデータ) (2020-11-19T03:35:45Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。