論文の概要: StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization
- arxiv url: http://arxiv.org/abs/2011.01557v2
- Date: Fri, 12 Feb 2021 18:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 06:23:55.644618
- Title: StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization
- Title(参考訳): StyleMelGAN: 時間適応正規化を用いた高忠実度逆数ボコーダ
- Authors: Ahmed Mustafa, Nicola Pia, Guillaume Fuchs
- Abstract要約: StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
- 参考スコア(独自算出の注目度): 9.866072912049031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, neural vocoders have surpassed classical speech generation
approaches in naturalness and perceptual quality of the synthesized speech.
Computationally heavy models like WaveNet and WaveGlow achieve best results,
while lightweight GAN models, e.g. MelGAN and Parallel WaveGAN, remain inferior
in terms of perceptual quality. We therefore propose StyleMelGAN, a lightweight
neural vocoder allowing synthesis of high-fidelity speech with low
computational complexity. StyleMelGAN employs temporal adaptive normalization
to style a low-dimensional noise vector with the acoustic features of the
target speech. For efficient training, multiple random-window discriminators
adversarially evaluate the speech signal analyzed by a filter bank, with
regularization provided by a multi-scale spectral reconstruction loss. The
highly parallelizable speech generation is several times faster than real-time
on CPUs and GPUs. MUSHRA and P.800 listening tests show that StyleMelGAN
outperforms prior neural vocoders in copy-synthesis and Text-to-Speech
scenarios.
- Abstract(参考訳): 近年,ニューラルボコーダは,合成音声の自然性や知覚的品質において,古典的な音声生成アプローチを超越している。
WaveNetやWaveGlowのような計算量の多いモデルは最高の結果を得るが、MelGANやParallel WaveGANのような軽量のGANモデルは知覚品質の点で劣っている。
そこで我々は,低計算量で高忠実度音声を合成できる軽量なニューラルボコーダであるStyleMelGANを提案する。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響特性を持つ低次元ノイズベクトルをスタイルする。
効率的な訓練のために、複数のランダムウィンドウ判別器は、マルチスケールのスペクトル再構成損失による正規化により、フィルタバンクによって解析された音声信号を逆向きに評価する。
並列性の高い音声生成は、cpuやgpuのリアルタイム処理よりも数倍高速である。
MUSHRA と P.800 の聴取試験では、StyleMelGAN はコピー合成やテキスト音声のシナリオにおいて、以前の神経ボコーダよりも優れていた。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Wave-U-Net Discriminator: Fast and Lightweight Discriminator for
Generative Adversarial Network-Based Speech Synthesis [38.27153023145183]
音声合成において、生成逆数ネットワーク(GAN)を用いて、min-maxゲームにおいてジェネレータ(音声合成器)と識別器を訓練する。
識別器のアンサンブルは、近年のニューラルボコーダ (HiFi-GAN) やエンドツーエンドのテキスト音声 (TTS) システムでよく使われている。
本研究では,Wave-U-Netアーキテクチャを用いた単一だが表現力のある識別器であるWave-U-Net判別器を提案する。
論文 参考訳(メタデータ) (2023-03-24T10:46:40Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。