論文の概要: CoMoSVC: Consistency Model-based Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2401.01792v1
- Date: Wed, 3 Jan 2024 15:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:46:47.553983
- Title: CoMoSVC: Consistency Model-based Singing Voice Conversion
- Title(参考訳): CoMoSVC:一貫性モデルに基づく歌声変換
- Authors: Yiwen Lu, Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo
- Abstract要約: 一貫性モデルに基づく歌声変換法であるCoMoSVCを提案する。
CoMoSVCは、高品質な生成と高速サンプリングの両方を達成することを目指している。
1つのNVIDIA GTX4090 GPUの実験では、CoMoSVCは最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を示している。
- 参考スコア(独自算出の注目度): 40.08004069518143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diffusion-based Singing Voice Conversion (SVC) methods have achieved
remarkable performances, producing natural audios with high similarity to the
target timbre. However, the iterative sampling process results in slow
inference speed, and acceleration thus becomes crucial. In this paper, we
propose CoMoSVC, a consistency model-based SVC method, which aims to achieve
both high-quality generation and high-speed sampling. A diffusion-based teacher
model is first specially designed for SVC, and a student model is further
distilled under self-consistency properties to achieve one-step sampling.
Experiments on a single NVIDIA GTX4090 GPU reveal that although CoMoSVC has a
significantly faster inference speed than the state-of-the-art (SOTA)
diffusion-based SVC system, it still achieves comparable or superior conversion
performance based on both subjective and objective metrics. Audio samples and
codes are available at https://comosvc.github.io/.
- Abstract(参考訳): 拡散に基づく歌声変換(SVC)法は,目標音色によく似た自然な音声を生成することで,優れた性能を実現している。
しかし、反復サンプリングプロセスは推論速度が遅くなり、加速度が重要になる。
本稿では,高品質な生成と高速サンプリングを実現することを目的とした,一貫性モデルに基づくsvc法であるcomosvcを提案する。
拡散型教師モデルが最初にsvc用に特別に設計され、学生モデルはさらに自己抵抗特性下で蒸留して一段階サンプリングを行う。
1つのNVIDIA GTX4090 GPUの実験によると、CoMoSVCは、最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を持つが、主観的および客観的メトリクスの両方に基づいて、同等または優れた変換性能を達成する。
オーディオサンプルとコードはhttps://comosvc.github.io/で入手できる。
関連論文リスト
- LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling [7.487807225162913]
SVC(Singing Voice Conversion)は、Voice Conversion(VC)の重要なサブフィールドとして登場した。
従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。
本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。
論文 参考訳(メタデータ) (2024-09-13T07:02:36Z) - FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation [28.847324588324152]
我々はFastVoiceGradを提案する。FastVoiceGradは1ステップの拡散型VCで、数十から1までのイテレーション数を削減します。
FastVoiceGradは、推論速度を向上しながら、従来の多段階拡散ベースVCに匹敵する、あるいは同等の能力を発揮する。
論文 参考訳(メタデータ) (2024-09-03T19:19:48Z) - SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency
Model [41.21042900853639]
本研究では,単一拡散サンプリングステップによる音声合成を実現する"Co"sistency "Mo"del-based "Speech"合成法,"CoMoSpeech"を提案する。
単一のサンプリングステップで音声録音を生成することで、CoMoSpeechはリアルタイムよりも150倍以上高速な推論速度を実現する。
論文 参考訳(メタデータ) (2023-05-11T15:51:46Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。