論文の概要: TCSinger 2: Customizable Multilingual Zero-shot Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2505.14910v2
- Date: Tue, 27 May 2025 00:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:19.745665
- Title: TCSinger 2: Customizable Multilingual Zero-shot Singing Voice Synthesis
- Title(参考訳): TCSinger 2: カスタマイズ可能な多言語ゼロショット音声合成
- Authors: Yu Zhang, Wenxiang Guo, Changhao Pan, Dongyu Yao, Zhiyuan Zhu, Ziyue Jiang, Yuhan Wang, Tao Jin, Zhou Zhao,
- Abstract要約: マルチリンガルゼロショット歌唱音声(SVS)は、音楽合成や短いビデオダビングに様々な応用がある。
マルチタスク多言語ゼロショットSVSモデルであるTCSinger 2を導入し,様々なプロンプトに基づいてスタイル転送とスタイル制御を行う。
その結果,TCSinger 2は,複数のタスクの主観的および客観的な指標において,ベースラインモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 45.25653283957727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customizable multilingual zero-shot singing voice synthesis (SVS) has various potential applications in music composition and short video dubbing. However, existing SVS models overly depend on phoneme and note boundary annotations, limiting their robustness in zero-shot scenarios and producing poor transitions between phonemes and notes. Moreover, they also lack effective multi-level style control via diverse prompts. To overcome these challenges, we introduce TCSinger 2, a multi-task multilingual zero-shot SVS model with style transfer and style control based on various prompts. TCSinger 2 mainly includes three key modules: 1) Blurred Boundary Content (BBC) Encoder, predicts duration, extends content embedding, and applies masking to the boundaries to enable smooth transitions. 2) Custom Audio Encoder, uses contrastive learning to extract aligned representations from singing, speech, and textual prompts. 3) Flow-based Custom Transformer, leverages Cus-MOE, with F0 supervision, enhancing both the synthesis quality and style modeling of the generated singing voice. Experimental results show that TCSinger 2 outperforms baseline models in both subjective and objective metrics across multiple related tasks. Singing voice samples are available at https://aaronz345.github.io/TCSinger2Demo/.
- Abstract(参考訳): カスタマイズ可能な多言語ゼロショット音声合成(SVS)は、音楽合成やショートビデオダビングに様々な可能性を持つ。
しかし、既存のSVSモデルは音素と音符境界アノテーションに過度に依存するため、ゼロショットシナリオでの頑健さが制限され、音素と音符間の遷移が低くなる。
さらに、多様なプロンプトによる効果的なマルチレベルスタイル制御も欠如している。
これらの課題を克服するために,様々なプロンプトに基づいたスタイル転送とスタイル制御を備えたマルチタスク多言語ゼロショットSVSモデルであるTCSinger 2を導入する。
TCSinger 2は主に3つの主要なモジュールを含んでいる。
1)Blurred Boundary Content (BBC) Encoderは,持続時間を予測し,コンテンツ埋め込みを拡張し,スムーズな遷移を可能にするために境界にマスキングを適用する。
2) カスタムオーディオエンコーダは, コントラスト学習を用いて, 歌声, 音声, テキストのプロンプトから一致した表現を抽出する。
3)フローベースCustom Transformerは,Cus-MOEを利用してF0の監督を行い,生成した歌唱音声の合成品質とスタイルモデリングの両面を向上する。
実験結果から,TCSinger 2は複数のタスクにまたがる主観的指標と客観的指標の両方において,ベースラインモデルよりも優れていた。
歌声サンプルはhttps://aaronz345.github.io/TCSinger2Demo/で入手できる。
関連論文リスト
- Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - BiSinger: Bilingual Singing Voice Synthesis [9.600465391545477]
本稿では,バイリンガル・ポップSVSシステムであるBiSingerについて述べる。
我々は中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。
実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、英語とコードスウィッチSVSのパフォーマンスが向上した単一モデルが可能であることが確認された。
論文 参考訳(メタデータ) (2023-09-25T12:31:05Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。