論文の概要: HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2009.01776v1
- Date: Thu, 3 Sep 2020 16:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:17:21.889240
- Title: HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis
- Title(参考訳): HiFiSinger:高忠実性ニューラルシンキング音声合成を目指して
- Authors: Jiawei Chen, Xu Tan, Jian Luan, Tao Qin, Tie-Yan Liu
- Abstract要約: HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
- 参考スコア(独自算出の注目度): 153.48507947322886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-fidelity singing voices usually require higher sampling rate (e.g.,
48kHz) to convey expression and emotion. However, higher sampling rate causes
the wider frequency band and longer waveform sequences and throws challenges
for singing voice synthesis (SVS) in both frequency and time domains.
Conventional SVS systems that adopt small sampling rate cannot well address the
above challenges. In this paper, we develop HiFiSinger, an SVS system towards
high-fidelity singing voice. HiFiSinger consists of a FastSpeech based acoustic
model and a Parallel WaveGAN based vocoder to ensure fast training and
inference and also high voice quality. To tackle the difficulty of singing
modeling caused by high sampling rate (wider frequency band and longer
waveform), we introduce multi-scale adversarial training in both the acoustic
model and vocoder to improve singing modeling. Specifically, 1) To handle the
larger range of frequencies caused by higher sampling rate, we propose a novel
sub-frequency GAN (SF-GAN) on mel-spectrogram generation, which splits the full
80-dimensional mel-frequency into multiple sub-bands and models each sub-band
with a separate discriminator. 2) To model longer waveform sequences caused by
higher sampling rate, we propose a multi-length GAN (ML-GAN) for waveform
generation to model different lengths of waveform sequences with separate
discriminators. 3) We also introduce several additional designs and findings in
HiFiSinger that are crucial for high-fidelity voices, such as adding F0 (pitch)
and V/UV (voiced/unvoiced flag) as acoustic features, choosing an appropriate
window/hop size for mel-spectrogram, and increasing the receptive field in
vocoder for long vowel modeling. Experiment results show that HiFiSinger
synthesizes high-fidelity singing voices with much higher quality: 0.32/0.44
MOS gain over 48kHz/24kHz baseline and 0.83 MOS gain over previous SVS systems.
- Abstract(参考訳): 高忠実な歌声は通常、表現と感情を伝えるために高いサンプリングレート(48kHzなど)を必要とする。
しかし、サンプリングレートの上昇は、より広い周波数帯域と長い波形シーケンスを引き起こし、周波数領域と時間領域の両方で歌声合成(SVS)の課題を投げかける。
サンプリングレートが小さい従来のSVSシステムでは、上記の課題に対処できない。
本稿では,高忠実度歌声に対するSVSシステムであるHiFiSingerを開発する。
HiFiSingerはFastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成され、高速なトレーニングと推論と高い音声品質を確保する。
高サンプリングレート(広帯域帯と長波形)による歌唱モデリングの難しさに対処するため,音響モデルとボコーダの両方にマルチスケールの対角訓練を導入し,歌唱モデリングを改善する。
具体的には
1) 高サンプリングレートによる広い周波数域に対応するために,80次元メル周波数を複数のサブバンドに分割し,各サブバンドを別個の識別器でモデル化する,メルスペクトル生成のための新しいサブ周波数GAN(SF-GAN)を提案する。
2) より長い波形列を高サンプリングレートでモデル化するために, 波形生成のための複数長GAN(ML-GAN)を提案し, 異なる識別器を用いて波形列の異なる長さをモデル化する。
3) また,f0(ピッチ)とv/uv(有声/無声フラグ)を音響的特徴として加えたり,メルスペクトログラムに適した窓/ホップサイズを選択したり,vocoderの長母音モデルにおける受容野を増加させたりといった,高忠実度音声に不可欠な設計や発見についても紹介する。
HiFiSingerは、48kHz/24kHzのベースラインで0.32/0.44 MOS、以前のSVSシステムで0.83 MOSの高音質な歌声を合成する。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Fre-GAN: Adversarial Frequency-consistent Audio Synthesis [39.69759686729388]
Fre-GANは、周波数一貫性のある音声合成を実現する。
Fre-GANは0.03 MOSのギャップを持つ高忠実な波形を生成する。
論文 参考訳(メタデータ) (2021-06-04T07:12:39Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform
Generation in Multiple Domains [1.8047694351309207]
複数のドメインで高忠実度音声を合成するボコーダであるUniversal MelGANを提案する。
MelGANベースの構造は、数百人の話者のデータセットでトレーニングされている。
生成波形のスペクトル分解能を高めるために,マルチレゾリューション・スペクトログラム・ディミネータを追加した。
論文 参考訳(メタデータ) (2020-11-19T03:35:45Z) - HiFi-GAN: Generative Adversarial Networks for Efficient and High
Fidelity Speech Synthesis [12.934180951771596]
効率と高忠実度音声合成を実現するHiFi-GANを提案する。
単一話者データセットの主観的人的評価は,提案手法が人的品質と類似性を示すことを示している。
HiFi-GANの小さなフットプリントバージョンは、CPU上のリアルタイムよりも13.4倍高速なサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-12T12:33:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。