論文の概要: DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2105.02446v1
- Date: Thu, 6 May 2021 05:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:11:10.394491
- Title: DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis
- Title(参考訳): DiffSinger:歌声合成のための拡散音響モデル
- Authors: Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, Peng Liu, Zhou Zhao
- Abstract要約: DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
- 参考スコア(独自算出の注目度): 53.19363127760314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice synthesis (SVS) system is built to synthesize high-quality and
expressive singing voice, in which the acoustic model generates the acoustic
features (e.g., mel-spectrogram) given a music score. Previous singing acoustic
models adopt simple loss (e.g., L1 and L2) or generative adversarial network
(GAN) to reconstruct the acoustic features, while they suffer from
over-smoothing and unstable training issues respectively, which hinder the
naturalness of synthesized singing. In this work, we propose DiffSinger, an
acoustic model for SVS based on the diffusion probabilistic model. DiffSinger
is a parameterized Markov chain which iteratively converts the noise into
mel-spectrogram conditioned on the music score. By implicitly optimizing
variational bound, DiffSinger can be stably trained and generates realistic
outputs. To further improve the voice quality, we introduce a \textbf{shallow
diffusion mechanism} to make better use of the prior knowledge learned by the
simple loss. Specifically, DiffSinger starts generation at a shallow step
smaller than the total number of diffusion steps, according to the intersection
of the diffusion trajectories of the ground-truth mel-spectrogram and the one
predicted by a simple mel-spectrogram decoder. Besides, we train a boundary
prediction network to locate the intersection and determine the shallow step
adaptively. The evaluations conducted on the Chinese singing dataset
demonstrate that DiffSinger outperforms state-of-the-art SVS work with a
notable margin (0.11 MOS gains). Our extensional experiments also prove the
generalization of DiffSinger on text-to-speech task.
- Abstract(参考訳): 歌声合成(SVS)システムは、高品質で表現力のある歌声を合成するために構築され、音響モデルが楽譜を与えられた音響特徴(例えば、メルスペクトル)を生成する。
従来の歌唱音響モデルでは、単純な損失(L1とL2)または生成的敵ネットワーク(GAN)を用いて音響特性を再構築するが、これらはそれぞれ過度に平滑で不安定な訓練問題に悩まされ、合成歌唱の自然性を損なう。
本研究では拡散確率モデルに基づくSVSの音響モデルDiffSingerを提案する。
ディフシンガー(DiffSinger)は、パラメータ化されたマルコフ連鎖であり、音楽スコアに条件付きメルスペクトルに繰り返し変換する。
変動境界を暗黙的に最適化することで、diffsingerは安定的に訓練され、現実的な出力を生成することができる。
音声の質をさらに向上するため,簡単な損失によって学習した事前知識をよりよく活用するための「textbf{shallow diffusion mechanism」を導入する。
特に、DiffSingerは、地上トルス・メル・スペクトログラムの拡散軌跡と単純なメル・スペクトログラムデコーダによって予測されるものとの交叉に従って、拡散ステップの総数よりも小さい浅いステップで生成を開始する。
また,境界予測ネットワークを訓練し,交差点を同定し,浅いステップを適応的に決定する。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVS作業より優れており、顕著なマージン(0.11 MOSゲイン)を達成していることを示している。
我々の拡張実験は、テキスト音声タスクにおけるDiffSingerの一般化も証明している。
関連論文リスト
- RDSinger: Reference-based Diffusion Network for Singing Voice Synthesis [3.7937714754535503]
歌声合成(SVS)は,音楽スコアから高忠実な歌唱音声を生成することを目的としている。
拡散モデルは、画像やビデオ作成のような様々な生成タスクにおいて、例外的なパフォーマンスを示している。
本稿では,SVSタスクのための高品質な音声を生成する参照型デノナイジング拡散ネットワーク RDSinger を紹介する。
論文 参考訳(メタデータ) (2024-10-29T01:01:18Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [13.178747366560534]
我々はWeSingerという中国語多言語音声合成システムを開発した。
定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
論文 参考訳(メタデータ) (2022-03-21T06:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。