論文の概要: YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases
- arxiv url: http://arxiv.org/abs/2512.04793v1
- Date: Thu, 04 Dec 2025 13:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.188154
- Title: YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GRPO and Singing-Specific Inductive Biases
- Title(参考訳): YingMusic-SVC: Flow-GRPOとSinging-Specific Inductive Biaseを用いた実世界ロバストゼロショット歌声変換
- Authors: Gongyu Chen, Xiaoyu Zhang, Zhenqiang Weng, Junjie Zheng, Da Shen, Chaofan Ding, Wei-Qiang Zhang, Zihao Chen,
- Abstract要約: 歌声変換は、メロディと歌詞を保存しながら、対象の歌手の音色を表現することを目的としている。
既存のゼロショットSVCシステムは、ハーモニー干渉、F0エラー、歌唱における帰納バイアスの欠如により、実際の曲では脆弱である。
我々は,連続的な事前学習,堅牢な教師付き微調整,フロー-GRPO強化学習を統一する,堅牢なゼロショットフレームワークであるYingMusic-SVCを提案する。
- 参考スコア(独自算出の注目度): 16.489839494462124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing voice conversion (SVC) aims to render the target singer's timbre while preserving melody and lyrics. However, existing zero-shot SVC systems remain fragile in real songs due to harmony interference, F0 errors, and the lack of inductive biases for singing. We propose YingMusic-SVC, a robust zero-shot framework that unifies continuous pre-training, robust supervised fine-tuning, and Flow-GRPO reinforcement learning. Our model introduces a singing-trained RVC timbre shifter for timbre-content disentanglement, an F0-aware timbre adaptor for dynamic vocal expression, and an energy-balanced rectified flow matching loss to enhance high-frequency fidelity. Experiments on a graded multi-track benchmark show that YingMusic-SVC achieves consistent improvements over strong open-source baselines in timbre similarity, intelligibility, and perceptual naturalness, especially under accompanied and harmony-contaminated conditions, demonstrating its effectiveness for real-world SVC deployment.
- Abstract(参考訳): 歌声変換(SVC)は、メロディと歌詞を保存しながら、対象の歌手の音色を表現することを目的としている。
しかし、既存のゼロショットSVCシステムは、ハーモニー干渉、F0エラー、歌唱における帰納バイアスの欠如などにより、実際の曲では脆弱なままである。
我々は,連続的な事前学習,堅牢な教師付き微調整,フロー-GRPO強化学習を統一する,堅牢なゼロショットフレームワークであるYingMusic-SVCを提案する。
提案モデルでは,歌唱訓練した音色変化器と動的声調表現のためのF0対応音色適応器,高周波数忠実度向上のためのエネルギーバランスの整流流整合損失を導入している。
グレード付きマルチトラックベンチマークの実験では、YingMusic-SVCは、音色類似性、知性、知覚自然性において、強力なオープンソースベースラインよりも一貫した改善を達成し、特に随伴および調和に富んだ条件下で、実世界のSVC展開におけるその効果を実証している。
関連論文リスト
- R2-SVC: Towards Real-World Robust and Expressive Zero-shot Singing Voice Conversion [9.800248190122545]
R2-SVCは堅牢で表現力豊かな歌声変換フレームワークである。
ドメイン固有歌唱データとパブリック歌唱コーパスを用いた話者表現を充実させる。
R2-SVCはクリーンかつノイズの多い条件下で複数のSVCベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T15:52:03Z) - CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance [6.797243060589937]
歌声合成(SVS)は、歌詞やピッチシーケンスなどの構造化された音楽入力から、表現力のある音声演奏を生成することを目的としている。
本稿では,離散音色モデリングパラダイム内でのメロディ構造制御を実現するフレームワークであるCoMelSingerを提案する。
我々は,CoMelSingerが,競争ベースラインよりもピッチ精度,一貫性,ゼロショット転送性において顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-24T08:34:19Z) - DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching [17.823734573531]
Singing Voice Conversionの鍵となる課題は、音質を損なうことなくソースオーディオに、目に見えないスピーカーの音色を適応させることだ。
そこで本研究では,ソースオーディオからの自己教師付き学習機能を,ターゲットオーディオから最も近いSSL機能に置き換えるDAFMSVCを提案する。
また、話者埋め込み、メロディ、および言語内容の適応的な融合のための二重のクロスアテンション機構も組み込まれている。
論文 参考訳(メタデータ) (2025-08-08T03:24:19Z) - Zero-Shot Voice Conversion via Content-Aware Timbre Ensemble and Conditional Flow Matching [7.151257248661491]
CTEFM-VCは、コンテント対応の音色アンサンブルモデリングと条件付きフローマッチングを統合するフレームワークである。
CTEFM-VCは、話者の類似性、音声の自然性、および知性を評価するすべての指標において、常に最高の性能を達成している。
論文 参考訳(メタデータ) (2024-11-04T12:23:17Z) - TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。