論文の概要: SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2406.05692v1
- Date: Sun, 9 Jun 2024 08:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:24:05.182524
- Title: SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion
- Title(参考訳): SPA-SVC:歌声変換のための自己教師型ピッチ拡張
- Authors: Bingsong Bai, Fengping Wang, Yingming Gao, Ya Li,
- Abstract要約: 歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 12.454955437047573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based singing voice conversion (SVC) models have shown better synthesis quality compared to traditional methods. However, in cross-domain SVC scenarios, where there is a significant disparity in pitch between the source and target voice domains, the models tend to generate audios with hoarseness, posing challenges in achieving high-quality vocal outputs. Therefore, in this paper, we propose a Self-supervised Pitch Augmentation method for Singing Voice Conversion (SPA-SVC), which can enhance the voice quality in SVC tasks without requiring additional data or increasing model parameters. We innovatively introduce a cycle pitch shifting training strategy and Structural Similarity Index (SSIM) loss into our SVC model, effectively enhancing its performance. Experimental results on the public singing datasets M4Singer indicate that our proposed method significantly improves model performance in both general SVC scenarios and particularly in cross-domain SVC scenarios.
- Abstract(参考訳): 拡散に基づく歌唱音声変換(SVC)モデルでは,従来の手法と比較して合成品質が向上している。
しかし、ソースとターゲットの音声領域のピッチに大きな違いがあるクロスドメインSVCのシナリオでは、モデルは粗い音声を生成する傾向があり、高品質な音声出力を実現する上での課題を提起する。
そこで本稿では,SVCタスクにおける音声品質を,追加データやモデルパラメータの増大を伴わずに向上させる,SPA-SVCの自己教師型ピッチ拡張手法を提案する。
我々は,SVCモデルに周期ピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失を導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法は一般的なSVCシナリオ,特にクロスドメインSVCシナリオにおいて,モデル性能を大幅に向上させることが示された。
関連論文リスト
- LHQ-SVC: Lightweight and High Quality Singing Voice Conversion Modeling [7.487807225162913]
SVC(Singing Voice Conversion)は、Voice Conversion(VC)の重要なサブフィールドとして登場した。
従来のSVC手法は、オーディオ品質、データ要求、計算複雑性の点で制限がある。
本稿では,SVCフレームワークと拡散モデルに基づく軽量CPU互換モデルであるLHQ-SVCを提案する。
論文 参考訳(メタデータ) (2024-09-13T07:02:36Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - CoMoSVC: Consistency Model-based Singing Voice Conversion [40.08004069518143]
一貫性モデルに基づく歌声変換法であるCoMoSVCを提案する。
CoMoSVCは、高品質な生成と高速サンプリングの両方を達成することを目指している。
1つのNVIDIA GTX4090 GPUの実験では、CoMoSVCは最先端(SOTA)拡散ベースのSVCシステムよりもはるかに高速な推論速度を示している。
論文 参考訳(メタデータ) (2024-01-03T15:47:17Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - SingAug: Data Augmentation for Singing Voice Synthesis with
Cycle-consistent Training Strategy [69.24683717901262]
深層学習に基づく歌唱音声合成システム(SVS)は、より優れた品質の歌唱を柔軟に生成することが実証されている。
本研究では,SVSシステムのトレーニングを促進するために,さまざまなデータ拡張手法について検討する。
トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-31T12:50:10Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。