論文の概要: R2-SVC: Towards Real-World Robust and Expressive Zero-shot Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2510.20677v1
- Date: Thu, 23 Oct 2025 15:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.25696
- Title: R2-SVC: Towards Real-World Robust and Expressive Zero-shot Singing Voice Conversion
- Title(参考訳): R2-SVC: 実世界のロバストと表現型ゼロショット歌声変換を目指して
- Authors: Junjie Zheng, Gongyu Chen, Chaofan Ding, Zihao Chen,
- Abstract要約: R2-SVCは堅牢で表現力豊かな歌声変換フレームワークである。
ドメイン固有歌唱データとパブリック歌唱コーパスを用いた話者表現を充実させる。
R2-SVCはクリーンかつノイズの多い条件下で複数のSVCベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 9.800248190122545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world singing voice conversion (SVC) applications, environmental noise and the demand for expressive output pose significant challenges. Conventional methods, however, are typically designed without accounting for real deployment scenarios, as both training and inference usually rely on clean data. This mismatch hinders practical use, given the inevitable presence of diverse noise sources and artifacts from music separation. To tackle these issues, we propose R2-SVC, a robust and expressive SVC framework. First, we introduce simulation-based robustness enhancement through random fundamental frequency ($F_0$) perturbations and music separation artifact simulations (e.g., reverberation, echo), substantially improving performance under noisy conditions. Second, we enrich speaker representation using domain-specific singing data: alongside clean vocals, we incorporate DNSMOS-filtered separated vocals and public singing corpora, enabling the model to preserve speaker timbre while capturing singing style nuances. Third, we integrate the Neural Source-Filter (NSF) model to explicitly represent harmonic and noise components, enhancing the naturalness and controllability of converted singing. R2-SVC achieves state-of-the-art results on multiple SVC benchmarks under both clean and noisy conditions.
- Abstract(参考訳): 実世界の歌唱音声変換(SVC)アプリケーションでは、環境騒音と表現的出力の需要が大きな課題となっている。
しかし従来の手法は、トレーニングと推論の両方が通常クリーンなデータに依存しているため、実際のデプロイメントシナリオを考慮せずに設計される。
このミスマッチは、様々なノイズ源や音楽分離の人工物が必然的に存在することを考えると、実用的な使用を妨げる。
これらの課題に対処するため、堅牢で表現力豊かなSVCフレームワークであるR2-SVCを提案する。
まず,無作為な基本周波数(F_0$)摂動によるシミュレーションに基づくロバスト性向上と,ノイズ条件下での性能向上を目的とした音楽分離アーティファクトシミュレーション(例えば,残響,エコー)を紹介する。
第二に,ドメイン固有の歌唱データを用いて話者表現を豊かにし,クリーンボーカルとともにDNSMOSをフィルタした分離ボーカルと公衆歌唱コーパスを組み込むことにより,歌唱スタイルのニュアンスをキャプチャしながら話者の音色を保存できる。
第3に,高調波成分と雑音成分を明示的に表現するためにニューラル・ソース・フィルタ(NSF)モデルを統合し,変換歌唱の自然性と制御性を高める。
R2-SVCはクリーンかつノイズの多い条件下で複数のSVCベンチマークで最先端の結果を得る。
関連論文リスト
- SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。
低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。
大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-06-26T17:07:45Z) - SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Wav2code: Restore Clean Speech Representations via Codebook Lookup for Noise-Robust ASR [35.710735895190844]
ノイズロスASRの歪みを低減した特徴レベルSEを実装するために,Wav2codeという自己教師型フレームワークを提案する。
そこで本研究では,入力ノイズ表現のグローバル依存性をモデル化し,クリーンなコードを正確に予測するトランスフォーマーベースのコード予測器を提案する。
合成および実雑音データセットによる実験により、Wav2codeは音声歪みを解消し、様々な雑音条件下でのASR性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-04-11T04:46:12Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。