論文の概要: HQ-SVC: Towards High-Quality Zero-Shot Singing Voice Conversion in Low-Resource Scenarios
- arxiv url: http://arxiv.org/abs/2511.08496v2
- Date: Thu, 13 Nov 2025 01:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 14:36:37.072382
- Title: HQ-SVC: Towards High-Quality Zero-Shot Singing Voice Conversion in Low-Resource Scenarios
- Title(参考訳): HQ-SVC:低リソースシナリオにおける高品質ゼロショット歌声変換を目指して
- Authors: Bingsong Bai, Yizhong Geng, Fengping Wang, Cong Wang, Puyuan Guo, Yingming Gao, Ya Li,
- Abstract要約: HQ-SVCは高品質なゼロショット音声変換のための効率的なフレームワークである。
HQ-SVCはまず、疎結合モデルを用いて、共同コンテンツと話者の特徴を抽出する。
その後、ピッチやボリュームモデリングを通じて忠実度を高め、重要な音響情報を保存する。
- 参考スコア(独自算出の注目度): 18.036712630643205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot singing voice conversion (SVC) transforms a source singer's timbre to an unseen target speaker's voice while preserving melodic content without fine-tuning. Existing methods model speaker timbre and vocal content separately, losing essential acoustic information that degrades output quality while requiring significant computational resources. To overcome these limitations, we propose HQ-SVC, an efficient framework for high-quality zero-shot SVC. HQ-SVC first extracts jointly content and speaker features using a decoupled codec. It then enhances fidelity through pitch and volume modeling, preserving critical acoustic information typically lost in separate modeling approaches, and progressively refines outputs via differentiable signal processing and diffusion techniques. Evaluations confirm HQ-SVC significantly outperforms state-of-the-art zero-shot SVC methods in conversion quality and efficiency. Beyond voice conversion, HQ-SVC achieves superior voice naturalness compared to specialized audio super-resolution methods while natively supporting voice super-resolution tasks.
- Abstract(参考訳): ゼロショット歌唱音声変換(SVC)は、微調整なしでメロディックコンテンツを保存しながら、ソースシンガーの音色を未知のターゲット話者の声に変換する。
既存の手法では、話者の音色と声質を別々にモデル化し、重要な計算資源を必要としながら出力品質を劣化させる重要な音響情報を失う。
これらの制限を克服するために,高品質ゼロショットSVCの効率的なフレームワークであるHQ-SVCを提案する。
HQ-SVCはまず、分離されたコーデックを使用して、共同コンテンツとスピーカー機能を抽出する。
その後、ピッチとボリュームのモデリングによって忠実性を高め、異なるモデリングアプローチで一般的に失われる臨界音響情報を保存し、微分可能な信号処理と拡散技術によって出力を徐々に洗練する。
HQ-SVCは、変換品質と効率において、最先端のゼロショットSVC法よりも大幅に優れていることを確認した。
HQ-SVCは音声変換以外にも、音声超解法をネイティブにサポートしながら、特殊なオーディオ超解法よりも優れた音声自然性を実現している。
関連論文リスト
- DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching [17.823734573531]
Singing Voice Conversionの鍵となる課題は、音質を損なうことなくソースオーディオに、目に見えないスピーカーの音色を適応させることだ。
そこで本研究では,ソースオーディオからの自己教師付き学習機能を,ターゲットオーディオから最も近いSSL機能に置き換えるDAFMSVCを提案する。
また、話者埋め込み、メロディ、および言語内容の適応的な融合のための二重のクロスアテンション機構も組み込まれている。
論文 参考訳(メタデータ) (2025-08-08T03:24:19Z) - LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling [7.487807225162913]
SVC(Singing Voice Conversion)は、Voice Conversion(VC)の重要なサブフィールドとして登場した。
従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。
本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。
論文 参考訳(メタデータ) (2024-09-13T07:02:36Z) - SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - NoiseVC: Towards High Quality Zero-Shot Voice Conversion [2.3224617218247126]
NoiseVC は、VQ と Contrastive Predictive Coding (CPC) に基づいてコンテンツを切り離すことができるアプローチである。
我々は,いくつかの実験を行い,ノイズvcは品質を犠牲にして,強い絡み合い能力を持つことを実証する。
論文 参考訳(メタデータ) (2021-04-13T10:12:38Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。