論文の概要: VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders
- arxiv url: http://arxiv.org/abs/2408.06906v1
- Date: Tue, 13 Aug 2024 14:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:16:53.003894
- Title: VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders
- Title(参考訳): VNet:音声合成ヴォコーダのためのGANに基づくマルチティア識別ネットワーク
- Authors: Yubing Cao, Yongming Li, Liejun Wang, Yinfeng Yu,
- Abstract要約: VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
- 参考スコア(独自算出の注目度): 14.222389985736422
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Since the introduction of Generative Adversarial Networks (GANs) in speech synthesis, remarkable achievements have been attained. In a thorough exploration of vocoders, it has been discovered that audio waveforms can be generated at speeds exceeding real-time while maintaining high fidelity, achieved through the utilization of GAN-based models. Typically, the inputs to the vocoder consist of band-limited spectral information, which inevitably sacrifices high-frequency details. To address this, we adopt the full-band Mel spectrogram information as input, aiming to provide the vocoder with the most comprehensive information possible. However, previous studies have revealed that the use of full-band spectral information as input can result in the issue of over-smoothing, compromising the naturalness of the synthesized speech. To tackle this challenge, we propose VNet, a GAN-based neural vocoder network that incorporates full-band spectral information and introduces a Multi-Tier Discriminator (MTD) comprising multiple sub-discriminators to generate high-resolution signals. Additionally, we introduce an asymptotically constrained method that modifies the adversarial loss of the generator and discriminator, enhancing the stability of the training process. Through rigorous experiments, we demonstrate that the VNet model is capable of generating high-fidelity speech and significantly improving the performance of the vocoder.
- Abstract(参考訳): 音声合成におけるGAN(Generative Adversarial Networks)の導入以降,顕著な成果が得られた。
ボコーダの徹底的な探索において,GANモデルを用いて高忠実度を維持しながら,リアルタイム以上の速度で音声波形を生成できることが判明した。
通常、ヴォコーダへの入力は帯域制限スペクトル情報から成り、必然的に高周波の詳細を犠牲にする。
そこで本研究では,全帯域のMelスペクトログラム情報を入力として採用し,ボコーダに可能な限り包括的な情報を提供することを目的としている。
しかし、従来の研究では、入力としてフルバンドスペクトル情報を使用することで、合成音声の自然性を損なうような過度な平滑化が生じることが示されている。
この課題に対処するため、広帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークであるVNetを提案し、高分解能信号を生成するために複数のサブ識別器からなるマルチティア識別器(MTD)を提案する。
さらに, 発電機と判別器の対向損失を補正し, 訓練過程の安定性を向上させる漸近的に制約された手法を導入する。
厳密な実験により、VNetモデルは高忠実度音声を生成し、ボコーダの性能を大幅に向上させることができることを示した。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - RefineGAN: Universally Generating Waveform Better than Ground Truth with
Highly Accurate Pitch and Intensity Responses [15.599745604729842]
高速なリアルタイム生成機能を備えた高忠実性ニューラルボコーダRefineGANを提案する。
我々は,マルチスケールのスペクトログラムに基づく損失関数を用いたピッチ誘導型精細アーキテクチャを用いて,トレーニングプロセスの安定化を図る。
また, スピーカが生み出す欠陥を除去することにより, 波形再構成時の忠実度も向上することを示した。
論文 参考訳(メタデータ) (2021-11-01T14:12:54Z) - Variational Autoencoders: A Harmonic Perspective [79.49579654743341]
本研究では,高調波解析の観点から変分オートエンコーダ(VAE)について検討する。
VAEのエンコーダ分散は、VAEエンコーダとデコーダニューラルネットワークによってパラメータ化された関数の周波数内容を制御する。
論文 参考訳(メタデータ) (2021-05-31T10:39:25Z) - Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains [1.8047694351309207]
複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
論文 参考訳(メタデータ) (2020-11-19T03:35:45Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。