論文の概要: PPG-based singing voice conversion with adversarial representation
learning
- arxiv url: http://arxiv.org/abs/2010.14804v1
- Date: Wed, 28 Oct 2020 08:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 06:06:16.384076
- Title: PPG-based singing voice conversion with adversarial representation
learning
- Title(参考訳): PPGに基づく対向表現学習による歌声変換
- Authors: Zhonghao Li, Benlai Tang, Xiang Yin, Yuan Wan, Ling Xu, Chen Shen,
Zejun Ma
- Abstract要約: 歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 18.937609682084034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice conversion (SVC) aims to convert the voice of one singer to
that of other singers while keeping the singing content and melody. On top of
recent voice conversion works, we propose a novel model to steadily convert
songs while keeping their naturalness and intonation. We build an end-to-end
architecture, taking phonetic posteriorgrams (PPGs) as inputs and generating
mel spectrograms. Specifically, we implement two separate encoders: one encodes
PPGs as content, and the other compresses mel spectrograms to supply acoustic
and musical information. To improve the performance on timbre and melody, an
adversarial singer confusion module and a mel-regressive representation
learning module are designed for the model. Objective and subjective
experiments are conducted on our private Chinese singing corpus. Comparing with
the baselines, our methods can significantly improve the conversion performance
in terms of naturalness, melody, and voice similarity. Moreover, our PPG-based
method is proved to be robust for noisy sources.
- Abstract(参考訳): 歌声変換(SVC)は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
近年の音声変換作業に加えて,自然さとイントネーションを保ちながら着実に歌を変換する新しいモデルを提案する。
我々はエンドツーエンドのアーキテクチャを構築し、音声後部グラフ(PPG)を入力とし、メルスペクトログラムを生成する。
具体的には,PPGをコンテンツとして符号化し,メルスペクトログラムを圧縮して音響情報と音楽情報を供給する2つの分離エンコーダを実装した。
音色とメロディの性能を向上させるため、モデルに対向的なシンガー混乱モジュールとメリー回帰表現学習モジュールを設計する。
客観的,主観的な実験は中国民謡コーパスで行なわれた。
ベースラインと比較すると,本手法は自然性,メロディ,および音声類似性の観点から変換性能を著しく向上させることができる。
さらに,本手法は雑音源に対して頑健であることを示した。
関連論文リスト
- StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Effects of Convolutional Autoencoder Bottleneck Width on StarGAN-based
Singing Technique Conversion [2.2221991003992967]
歌唱技法変換(Singing Technique conversion、STC)とは、ある音声技術から別の音声技術へ変換する作業を指す。
以前のSTC研究や歌唱音声変換の研究は、畳み込みオートエンコーダ(CAE)を変換に用いている。
我々は WORLD vocoder 表現と CAE アーキテクチャを利用した GAN ベースのマルチドメイン STC システムを構築した。
論文 参考訳(メタデータ) (2023-08-19T14:13:28Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding [6.278338686038089]
非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-10-10T10:27:20Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Speech-to-Singing Conversion in an Encoder-Decoder Framework [38.111942306157545]
我々は,話し言葉を歌声に変換する問題に対して,学習に基づくアプローチを採っている。
話者の言語内容と音色を保存する歌を合成できるエンコーディングを学習する。
論文 参考訳(メタデータ) (2020-02-16T15:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。