論文の概要: SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis
- arxiv url: http://arxiv.org/abs/2407.07728v2
- Date: Thu, 11 Jul 2024 03:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 11:33:49.089614
- Title: SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis
- Title(参考訳): SaMoye: 特徴距離と合成に基づくゼロショット歌声変換
- Authors: Zihao Wang, Le Ma, Yan Liu, Kejun Zhang,
- Abstract要約: そこで我々は,SaMoyeと名づけた,エンドツーエンドの機能不整合に基づくモデルを提案する。
SaMoyeは、歌声の特徴をそれぞれコンテンツ機能、音色機能、ピッチ機能に分解する。
ゼロショット性能を保証するために,非並列な大規模データセットを構築した。
- 参考スコア(独自算出の注目度): 18.938948097700106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice conversion (SVC) aims to convert a singer's voice in a given music piece to another singer while keeping the original content. We propose an end-to-end feature disentanglement-based model, which we named SaMoye, to enable zero-shot many-to-many singing voice conversion. SaMoye disentangles the features of the singing voice into content features, timbre features, and pitch features respectively. The content features are enhanced using a GPT-based model to perform cross-prediction with the phoneme of the lyrics. SaMoye can generate the music with converted voice by replacing the timbre features with the target singer. We also establish an unparalleled large-scale dataset to guarantee zero-shot performance. The dataset consists of 1500k pure singing vocal clips containing at least 10,000 singers.
- Abstract(参考訳): 歌唱音声変換(SVC)は、歌唱者の声をオリジナルコンテンツを保持しつつ、特定の楽曲中の声を他の歌手に変換することを目的としている。
そこで我々は,ゼロショット多対多歌唱音声変換を実現するために,SaMoyeと名づけたエンドツーエンド機能不整合モデルを提案する。
SaMoyeは、歌声の特徴をそれぞれコンテンツ機能、音色機能、ピッチ機能に分解する。
コンテンツ機能はGPTモデルを用いて拡張され、歌詞の音素と交差予測を行う。
SaMoyeは、音色の特徴をターゲットの歌手に置き換えることで、変換された音声で音楽を生成することができる。
また、ゼロショット性能を保証するために、非並列な大規模データセットを構築します。
データセットは、少なくとも10,000人の歌手を含む1500kの純粋なボーカルクリップで構成されている。
関連論文リスト
- Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [65.56386869666025]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z) - End-to-end lyrics Recognition with Voice to Singing Style Transfer [42.442910911187454]
本稿では,vocoderに基づく音声に基づく自然音声から歌声へ変換するデータ拡張手法を提案する。
モノフォニック歌唱音声データに関する実験では、V2Sスタイルの転送は、E2E歌詞転写システムに有意な利益(相対的に21%の改善)を提供します。
論文 参考訳(メタデータ) (2021-02-17T04:52:52Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Adversarially Trained Multi-Singer Sequence-To-Sequence Singing
Synthesizer [11.598416444452619]
我々は、異なる歌手の既存の歌唱データを全て活用するマルチシンガー・フレームワークを設計する。
我々は、エンコーダ出力が歌手依存を減らすために、シンガー分類の逆タスクを組み込んだ。
提案するシンセサイザーはベースラインよりも高品質な歌唱音声を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T07:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。