Fugu-MT 論文翻訳(概要): SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

論文の概要: SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis

arxiv url: http://arxiv.org/abs/2602.07803v1
Date: Sun, 08 Feb 2026 03:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.809265
Title: SoulX-Singer: Towards High-Quality Zero-Shot Singing Voice Synthesis
Title（参考訳）: SoulX-Singer:高品質ゼロショット歌声合成を目指して
Authors: Jiale Qian, Hao Meng, Tian Zheng, Pengcheng Zhu, Haopeng Lin, Yuhang Dai, Hanke Xie, Wenxiao Cao, Ruixuan Shang, Jun Wu, Hongmei Liu, Hanlin Wen, Jian Zhao, Zhonglin Jiang, Yong Chen, Shunshun Yin, Ming Tao, Jianguo Wei, Lei Xie, Xinsheng Wang,
Abstract要約: 本稿では,SVS(SoulX-Singer)システムについて紹介する。 SoulX-Singerは、シンボリック・ミュージック・スコア(MIDI)やメロディック・表現に基づいて、制御可能な歌声生成をサポートする。様々な音楽条件下で、言語間の最先端の合成品質を一貫して達成する。
参考スコア（独自算出の注目度）: 37.02483389960441
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent years have witnessed rapid progress in speech synthesis, open-source singing voice synthesis (SVS) systems still face significant barriers to industrial deployment, particularly in terms of robustness and zero-shot generalization. In this report, we introduce SoulX-Singer, a high-quality open-source SVS system designed with practical deployment considerations in mind. SoulX-Singer supports controllable singing generation conditioned on either symbolic musical scores (MIDI) or melodic representations, enabling flexible and expressive control in real-world production workflows. Trained on more than 42,000 hours of vocal data, the system supports Mandarin Chinese, English, and Cantonese and consistently achieves state-of-the-art synthesis quality across languages under diverse musical conditions. Furthermore, to enable reliable evaluation of zero-shot SVS performance in practical scenarios, we construct SoulX-Singer-Eval, a dedicated benchmark with strict training-test disentanglement, facilitating systematic assessment in zero-shot settings.
Abstract（参考訳）: 近年、音声合成の急速な進歩が見られたが、オープンソースの歌声合成(SVS)システムは、特にロバスト性やゼロショットの一般化の観点から、産業展開において大きな障壁に直面している。本稿では,SulX-Singerについて紹介する。SulX-Singerは,実用的デプロイメントを考慮した高品質なオープンソースSVSシステムである。 SoulX-Singerは、シンボリック楽譜(MIDI)またはメロディック表現に条件付けされた制御可能な歌声生成をサポートし、現実のプロダクションワークフローにおいて柔軟で表現力のある制御を可能にする。 42,000時間以上の音声データをトレーニングしたこのシステムは、中国語、英語、カントン語をサポートし、さまざまな音楽条件下での言語間の最先端の合成品質を一貫して達成している。さらに,実運用シナリオにおいてゼロショットSVS性能の信頼性評価を可能にするため,厳密なトレーニング・テスト・アンタングルメントを備えた専用ベンチマークであるSoulX-Singer-Evalを構築し,ゼロショット設定の体系的評価を容易にする。

関連論文リスト

DiTSinger: Scaling Singing Voice Synthesis with Diffusion Transformer and Implicit Alignment [13.149605745750245]
人間の歌声のコンパクトなシードセットは、固定されたメロディと多様な歌詞を組み合わせて構築され、メロディ固有のモデルは500時間以上の中国語の歌唱データを合成するように訓練されている。そこで我々は, 深度, 幅, 解像度を体系的に拡張した拡散変換器 DiTSinger を提案する。
論文参考訳（メタデータ） (2025-10-10T05:39:45Z)
CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance [6.797243060589937]
歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。本稿では,離散音色モデリングパラダイム内でのメロディ構造制御を実現するフレームワークであるCoMelSingerを提案する。我々は,CoMelSingerが,競争ベースラインよりもピッチ精度,一貫性,ゼロショット転送性において顕著な改善を実現していることを示す。
論文参考訳（メタデータ） (2025-09-24T08:34:19Z)
TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
論文参考訳（メタデータ） (2024-09-24T11:18:09Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。 StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文参考訳（メタデータ） (2023-12-17T15:26:16Z)
BiSinger: Bilingual Singing Voice Synthesis [9.600465391545477]
本稿では,バイリンガル・ポップSVSシステムであるBiSingerについて述べる。我々は中国語と英語の歌声の共有表現を設計し、CMU辞書とマッピング規則を用いて実現した。実験により、我々の言語非依存の表現と関連するデータセットの取り込みにより、英語とコードスウィッチSVSのパフォーマンスが向上した単一モデルが可能であることが確認された。
論文参考訳（メタデータ） (2023-09-25T12:31:05Z)
Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文参考訳（メタデータ） (2023-08-31T16:12:01Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses [13.178747366560534]
我々はWeSingerという中国語多言語音声合成システムを開発した。定量的および定性的な評価結果はWeSingerの有効性を精度と自然性の観点から示している。
論文参考訳（メタデータ） (2022-03-21T06:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。