論文の概要: YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases
- arxiv url: http://arxiv.org/abs/2512.04793v1
- Date: Thu, 04 Dec 2025 13:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.188154
- Title: YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases
- Title(参考訳): YingMusic-SVC: Flow-GRPOとSinging-Specific Inductive Biaseを用いた実世界ロバストゼロショット歌声変換
- Authors: Gongyu Chen, Xiaoyu Zhang, Zhenqiang Weng, Junjie Zheng, Da Shen, Chaofan Ding, Wei-Qiang Zhang, Zihao Chen,
- Abstract要約: 歌声変換は、メロディと歌詞を保存しながら、対象の歌手の音色を表現することを目的としている。
既存のゼロショットSVCシステムは、ハーモニー干渉、F0エラー、歌唱における帰納バイアスの欠如により、実際の曲では脆弱である。
我々は,連続的な事前学習,堅牢な教師付き微調整,フロー-GRPO強化学習を統一する,堅牢なゼロショットフレームワークであるYingMusic-SVCを提案する。
- 参考スコア(独自算出の注目度): 16.489839494462124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing voice conversion (SVC) aims to render the target singer's timbre while preserving melody and lyrics. However, existing zero-shot SVC systems remain fragile in real songs due to harmony interference, F0 errors, and the lack of inductive biases for singing. We propose YingMusic-SVC, a robust zero-shot framework that unifies continuous pre-training, robust supervised fine-tuning, and Flow-GRPO reinforcement learning. Our model introduces a singing-trained RVC timbre shifter for timbre-content disentanglement, an F0-aware timbre adaptor for dynamic vocal expression, and an energy-balanced rectified flow matching loss to enhance high-frequency fidelity. Experiments on a graded multi-track benchmark show that YingMusic-SVC achieves consistent improvements over strong open-source baselines in timbre similarity, intelligibility, and perceptual naturalness, especially under accompanied and harmony-contaminated conditions, demonstrating its effectiveness for real-world SVC deployment.
- Abstract(参考訳): 歌声変換(SVC)は、メロディと歌詞を保存しながら、対象の歌手の音色を表現することを目的としている。
しかし、既存のゼロショットSVCシステムは、ハーモニー干渉、F0エラー、歌唱における帰納バイアスの欠如などにより、実際の曲では脆弱なままである。
我々は,連続的な事前学習,堅牢な教師付き微調整,フロー-GRPO強化学習を統一する,堅牢なゼロショットフレームワークであるYingMusic-SVCを提案する。
提案モデルでは,歌唱訓練した音色変化器と動的声調表現のためのF0対応音色適応器,高周波数忠実度向上のためのエネルギーバランスの整流流整合損失を導入している。
グレード付きマルチトラックベンチマークの実験では、YingMusic-SVCは、音色類似性、知性、知覚自然性において、強力なオープンソースベースラインよりも一貫した改善を達成し、特に随伴および調和に富んだ条件下で、実世界のSVC展開におけるその効果を実証している。
関連論文リスト
- R2-SVC: Towards Real-World Robust and Expressive Zero-shot Singing Voice Conversion [9.800248190122545]
R2-SVCは堅牢で表現力豊かな歌声変換フレームワークである。
ドメイン固有歌唱データとパブリック歌唱コーパスを用いた話者表現を充実させる。
R2-SVCはクリーンかつノイズの多い条件下で複数のSVCベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T15:52:03Z) - CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance [6.797243060589937]
歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。
本稿では,離散音色モデリングパラダイム内でのメロディ構造制御を実現するフレームワークであるCoMelSingerを提案する。
我々は,CoMelSingerが,競争ベースラインよりもピッチ精度,一貫性,ゼロショット転送性において顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-24T08:34:19Z) - Zero-Shot Voice Conversion via Content-Aware Timbre Ensemble and Conditional Flow Matching [7.151257248661491]
CTEFM-VCは、コンテント対応の音色アンサンブルモデリングと条件付きフローマッチングを統合するフレームワークである。
CTEFM-VCは、話者の類似性、音声の自然性、および知性を評価するすべての指標において、常に最高の性能を達成している。
論文 参考訳(メタデータ) (2024-11-04T12:23:17Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。