論文の概要: SaMoye: Zero-shot Singing Voice Conversion Model Based on Feature Disentanglement and Enhancement
- arxiv url: http://arxiv.org/abs/2407.07728v5
- Date: Fri, 15 Nov 2024 07:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 18:55:25.495121
- Title: SaMoye: Zero-shot Singing Voice Conversion Model Based on Feature Disentanglement and Enhancement
- Title(参考訳): SaMoye:特徴分散と強調に基づくゼロショット歌声変換モデル
- Authors: Zihao Wang, Le Ma, Yongsheng Feng, Xin Pan, Yuhang Jin, Kejun Zhang,
- Abstract要約: 歌唱音声変換(SVC)は、歌唱者の声を参照音声から他の歌唱者の声に変換し、本来の意味を保ちながら行うことを目的としている。
そこで我々は,歌唱を人間と非人間の音色に変換できる,オープンソースの初の高品質ゼロショットSVCモデルSaMoyeを提案する。
- 参考スコア(独自算出の注目度): 14.890331617779546
- License:
- Abstract: Singing voice conversion (SVC) aims to convert a singer's voice to another singer's from a reference audio while keeping the original semantics. However, existing SVC methods can hardly perform zero-shot due to incomplete feature disentanglement or dependence on the speaker look-up table. We propose the first open-source high-quality zero-shot SVC model SaMoye that can convert singing to human and non-human timbre. SaMoye disentangles the singing voice's features into content, timbre, and pitch features, where we combine multiple ASR models and compress the content features to reduce timbre leaks. Besides, we enhance the timbre features by unfreezing the speaker encoder and mixing the speaker embedding with top-3 similar speakers. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance, which comprises more than 1,815 hours of pure singing voice and 6,367 speakers. We conduct objective and subjective experiments to find that SaMoye outperforms other models in zero-shot SVC tasks even under extreme conditions like converting singing to animals' timbre. The code and weight of SaMoye are available on https://github.com/CarlWangChina/SaMoye-SVC. The weights, code, dataset, and documents of SaMoye are publicly available on \url{https://github.com/CarlWangChina/SaMoye-SVC}.
- Abstract(参考訳): 歌唱音声変換(SVC)は、歌唱者の声を参照音声から他の歌唱者の声に変換し、本来の意味を保ちながら行うことを目的としている。
しかし、既存のSVC手法では、不完全な特徴の絡み合いや話者のルックアップテーブルへの依存のため、ゼロショットがほとんどできない。
そこで我々は,歌唱を人間と非人間の音色に変換できる,オープンソースの初の高品質ゼロショットSVCモデルSaMoyeを提案する。
SaMoyeは、歌声の特徴をコンテンツ、音色、ピッチの特徴に分解し、複数のASRモデルを組み合わせてコンテンツの特徴を圧縮し、音色漏れを減らす。
さらに, スピーカエンコーダを解凍し, スピーカーをトップ3の類似話者と混合することにより, 音色特性を向上する。
また,1,815時間以上の純歌声と6,367人の話者からなるゼロショット性能を保証するために,非並列な大規模データセットを構築した。
サモエは動物に歌う音色に変換するような極端な条件下であっても、ゼロショットのSVCタスクにおいて他のモデルよりも優れていることを確認するために、客観的かつ主観的な実験を行う。
SaMoyeのコードと重量はhttps://github.com/CarlWang China/SaMoye-SVCで確認できる。
SaMoyeの重み、コード、データセット、ドキュメントは、 \url{https://github.com/CarlWang China/SaMoye-SVC}で公開されている。
関連論文リスト
- TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control [58.96445085236971]
スタイル転送とスタイル制御を備えたゼロショット歌唱音声合成(SVS)は、目に見えない音色とスタイルで高品質な歌唱音声を生成することを目的としている。
言語間音声および歌唱スタイル間のスタイル伝達のための,最初のゼロショットSVSモデルであるTCSingerを紹介する。
TCSingerは、品質合成、シンガー類似性、および様々なタスクにおけるスタイル制御性において、全てのベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T11:18:09Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z) - Jukebox: A Generative Model for Music [75.242747436901]
Jukebox(ジュークボックス)は、生のオーディオドメインで歌いながら音楽を生成するモデルである。
複数スケールのVQ-VAEを用いて生音声の長いコンテキストに取り組み,それを離散コードに圧縮する。
複数分間のコヒーレンスで高忠実で多様な曲を生成できることを示す。
論文 参考訳(メタデータ) (2020-04-30T09:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。