論文の概要: TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
- arxiv url: http://arxiv.org/abs/2409.15977v3
- Date: Thu, 3 Oct 2024 14:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 18:04:33.309507
- Title: TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
- Title(参考訳): TCSinger:スタイル転送とマルチレベルスタイル制御によるゼロショット歌声合成
- Authors: Yu Zhang, Ziyue Jiang, Ruiqi Li, Changhao Pan, Jinzheng He, Rongjie Huang, Chuxin Wang, Zhou Zhao,
- Abstract要約: スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 58.96445085236971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot singing voice synthesis (SVS) with style transfer and style control aims to generate high-quality singing voices with unseen timbres and styles (including singing method, emotion, rhythm, technique, and pronunciation) from audio and text prompts. However, the multifaceted nature of singing styles poses a significant challenge for effective modeling, transfer, and control. Furthermore, current SVS models often fail to generate singing voices rich in stylistic nuances for unseen singers. To address these challenges, we introduce TCSinger, the first zero-shot SVS model for style transfer across cross-lingual speech and singing styles, along with multi-level style control. Specifically, TCSinger proposes three primary modules: 1) the clustering style encoder employs a clustering vector quantization model to stably condense style information into a compact latent space; 2) the Style and Duration Language Model (S\&D-LM) concurrently predicts style information and phoneme duration, which benefits both; 3) the style adaptive decoder uses a novel mel-style adaptive normalization method to generate singing voices with enhanced details. Experimental results show that TCSinger outperforms all baseline models in synthesis quality, singer similarity, and style controllability across various tasks, including zero-shot style transfer, multi-level style control, cross-lingual style transfer, and speech-to-singing style transfer. Singing voice samples can be accessed at https://tcsinger.github.io/.
- Abstract(参考訳): スタイル転送とスタイル制御を備えたゼロショット音声合成(SVS)は、音声やテキストのプロンプトから、目に見えない音色とスタイル(歌唱方法、感情、リズム、技法、発音を含む)で高品質な歌声を生成することを目的としている。
しかし、歌唱スタイルの多面的な性質は、効果的なモデリング、転送、制御に重要な課題をもたらす。
さらに、現在のSVSモデルは、目に見えない歌手のスタイル的なニュアンスに富んだ歌声を生成するのに失敗することが多い。
これらの課題に対処するため,言語間音声および歌唱スタイル間のスタイル伝達のための最初のゼロショットSVSモデルであるTCSingerと,マルチレベルスタイル制御を導入する。
具体的には、TCSingerは3つの主要なモジュールを提案する。
1)クラスタリング型エンコーダは、クラスタリングベクトル量子化モデルを用いて、安定してスタイル情報をコンパクトな潜在空間に格納する。
2)Style and Duration Language Model(S\&D-LM)は、スタイル情報と音素持続時間の両方を同時に予測する。
3) スタイル適応デコーダは, メリースタイル適応正規化法を用いて, より詳細な歌唱音声を生成する。
実験結果から,TCSingerは,ゼロショットスタイルの転送,マルチレベルスタイルの制御,言語間スタイルの転送,音声間スタイルの転送など,さまざまなタスクにおいて,合成品質,歌手の類似性,スタイル制御性において,すべてのベースラインモデルを上回っていることがわかった。
歌声サンプルはhttps://tcsinger.github.io/.com/で見ることができる。
関連論文リスト
- Constructing a Singing Style Caption Dataset [12.515874333424929]
多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。
S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。
本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。