論文の概要: WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses
- arxiv url: http://arxiv.org/abs/2203.10750v2
- Date: Thu, 24 Mar 2022 03:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 06:07:44.105168
- Title: WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses
- Title(参考訳): WeSinger:補助的損失を用いたデータ強化歌声合成
- Authors: Zewang Zhang, Yibin Zheng, Xinhui Li, Li Lu
- Abstract要約: 我々はWeSingerという中国語多言語音声合成システムを開発した。
定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
- 参考スコア(独自算出の注目度): 13.178747366560534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we develop a new multi-singer Chinese neural singing voice
synthesis (SVS) system named WeSinger. To improve the accuracy and naturalness
of synthesized singing voice, we design several specifical modules and
techniques: 1) A deep bi-directional LSTM based duration model with multi-scale
rhythm loss and post-processing step; 2) A Transformer-alike acoustic model
with progressive pitch-weighted decoder loss; 3) a 24 kHz pitch-aware LPCNet
neural vocoder to produce high-quality singing waveforms; 4) A novel data
augmentation method with multi-singer pre-training for stronger robustness and
naturalness. Both quantitative and qualitative evaluation results demonstrate
the effectiveness of WeSinger in terms of accuracy and naturalness, and
WeSinger achieves state-of-the-art performance on the public corpus Opencpop.
Some synthesized singing samples are available online
(https://zzw922cn.github.io/WeSinger/).
- Abstract(参考訳): 本稿では,WeSinger という中国語多言語音声合成システムを開発した。
合成歌唱音声の精度と自然性を改善するため,いくつかの具体的モジュールと技法を設計する。
1)多段階のリズム損失と後処理ステップを伴う深層双方向LSTMに基づく持続時間モデル
2)プログレッシブピッチ重み付きデコーダ損失を有するトランスフォーマー様音響モデル
3) 高品質歌唱波形を生成する24khzピッチアウェアlpcnetニューラルボコーダ
4) 強固なロバスト性と自然性を有するマルチシンガープリトレーニングによる新しいデータ拡張法。
定量的および定性的な評価結果は,WeSingerの有効性を精度と自然性の観点から示し,WeSingerは公開コーパスOpencpop上で最先端のパフォーマンスを達成する。
いくつかの合成歌唱サンプルはオンラインで入手できる(https://zzw922cn.github.io/WeSinger/)。
関連論文リスト
- ConSinger: Efficient High-Fidelity Singing Voice Generation with Minimal Steps [4.319804315515349]
最小ステップで高忠実度な歌声合成を実現するために,一貫性モデルであるConSingerに基づく歌声合成手法を提案する。
実験の結果,ConSingerは生成速度と品質の点で,ベースラインモデルと非常に競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-20T09:32:03Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。