論文の概要: VAW-GAN for Singing Voice Conversion with Non-parallel Training Data
- arxiv url: http://arxiv.org/abs/2008.03992v3
- Date: Tue, 3 Nov 2020 10:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 23:23:16.553136
- Title: VAW-GAN for Singing Voice Conversion with Non-parallel Training Data
- Title(参考訳): 非並列学習データを用いた歌声変換のためのVAW-GAN
- Authors: Junchen Lu, Kun Zhou, Berrak Sisman, Haizhou Li
- Abstract要約: VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
- 参考スコア(独自算出の注目度): 81.79070894458322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice conversion aims to convert singer's voice from source to target
without changing singing content. Parallel training data is typically required
for the training of singing voice conversion system, that is however not
practical in real-life applications. Recent encoder-decoder structures, such as
variational autoencoding Wasserstein generative adversarial network (VAW-GAN),
provide an effective way to learn a mapping through non-parallel training data.
In this paper, we propose a singing voice conversion framework that is based on
VAW-GAN. We train an encoder to disentangle singer identity and singing prosody
(F0 contour) from phonetic content. By conditioning on singer identity and F0,
the decoder generates output spectral features with unseen target singer
identity, and improves the F0 rendering. Experimental results show that the
proposed framework achieves better performance than the baseline frameworks.
- Abstract(参考訳): 歌唱音声変換は、歌唱内容を変更することなく、歌唱音声をソースからターゲットに変換することを目的としている。
並列学習データは通常、歌唱音声変換システムの訓練に必要となるが、実際の応用では実用的ではない。
最近のエンコーダ・デコーダ構造、例えば変分オートエンコーディングのwaserstein generative adversarial network (vaw-gan)は、非並列トレーニングデータを通してマッピングを学ぶ効果的な方法を提供する。
本稿では,VAW-GANに基づく歌声変換フレームワークを提案する。
音声コンテンツからシンガーアイデンティティと歌唱韻律(f0輪郭)を分離するためにエンコーダを訓練する。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えない対象シンガーIDの出力スペクトル特徴を生成し、F0レンダリングを改善する。
実験の結果,提案フレームワークはベースラインフレームワークよりも優れた性能を実現することがわかった。
関連論文リスト
- Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion [15.691936529849539]
シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。
本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
論文 参考訳(メタデータ) (2023-02-27T11:26:57Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z) - Speech-to-Singing Conversion in an Encoder-Decoder Framework [38.111942306157545]
我々は,話し言葉を歌声に変換する問題に対して,学習に基づくアプローチを採っている。
話者の言語内容と音色を保存する歌を合成できるエンコーディングを学習する。
論文 参考訳(メタデータ) (2020-02-16T15:33:41Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。