論文の概要: TCSinger 2: Customizable Multilingual Zero-shot Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2505.14910v1
- Date: Tue, 20 May 2025 21:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.755102
- Title: TCSinger 2: Customizable Multilingual Zero-shot Singing Voice Synthesis
- Title(参考訳): TCSinger 2: カスタマイズ可能な多言語ゼロショット音声合成
- Authors: Yu Zhang, Wenxiang Guo, Changhao Pan, Dongyu Yao, Zhiyuan Zhu, Ziyue Jiang, Yuhan Wang, Tao Jin, Zhou Zhao,
- Abstract要約: マルチリンガルゼロショット音声合成(SVS)は、音楽合成やショートビデオダビングに様々な応用がある。
マルチタスク多言語ゼロショットSVSモデルであるTCSinger 2を導入し,様々なプロンプトに基づいてスタイル転送とスタイル制御を行う。
- 参考スコア(独自算出の注目度): 45.25653283957727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizable multilingual zero-shot singing voice synthesis (SVS) has various potential applications in music composition and short video dubbing. However, existing SVS models overly depend on phoneme and note boundary annotations, limiting their robustness in zero-shot scenarios and producing poor transitions between phonemes and notes. Moreover, they also lack effective multi-level style control via diverse prompts. To overcome these challenges, we introduce TCSinger 2, a multi-task multilingual zero-shot SVS model with style transfer and style control based on various prompts. TCSinger 2 mainly includes three key modules: 1) Blurred Boundary Content (BBC) Encoder, predicts duration, extends content embedding, and applies masking to the boundaries to enable smooth transitions. 2) Custom Audio Encoder, uses contrastive learning to extract aligned representations from singing, speech, and textual prompts. 3) Flow-based Custom Transformer, leverages Cus-MOE, with F0 supervision, enhancing both the synthesis quality and style modeling of the generated singing voice. Experimental results show that TCSinger 2 outperforms baseline models in both subjective and objective metrics across multiple related tasks.
- Abstract(参考訳): カスタマイズ可能な多言語ゼロショット音声合成(SVS)は、音楽合成やショートビデオダビングに様々な可能性を持つ。
しかし、既存のSVSモデルは音素と音符境界アノテーションに過度に依存するため、ゼロショットシナリオでの頑健さが制限され、音素と音符間の遷移が低くなる。
さらに、多様なプロンプトによる効果的なマルチレベルスタイル制御も欠如している。
これらの課題を克服するために,様々なプロンプトに基づいたスタイル転送とスタイル制御を備えたマルチタスク多言語ゼロショットSVSモデルであるTCSinger 2を導入する。
TCSinger 2は主に3つの主要なモジュールを含んでいる。
1)Blurred Boundary Content (BBC) Encoderは,持続時間を予測し,コンテンツ埋め込みを拡張し,スムーズな遷移を可能にするために境界にマスキングを適用する。
2) カスタムオーディオエンコーダは, コントラスト学習を用いて, 歌声, 音声, テキストのプロンプトから一致した表現を抽出する。
3)フローベースCustom Transformerは,Cus-MOEを利用してF0の監督を行い,生成した歌唱音声の合成品質とスタイルモデリングの両面を向上する。
実験結果から,TCSinger 2は複数のタスクにまたがる主観的指標と客観的指標の両方において,ベースラインモデルよりも優れていた。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。