論文の概要: Robust One-Shot Singing Voice Conversion
- arxiv url: http://arxiv.org/abs/2210.11096v1
- Date: Thu, 20 Oct 2022 08:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 16:09:21.560883
- Title: Robust One-Shot Singing Voice Conversion
- Title(参考訳): ロバストなワンショット歌声変換
- Authors: Naoya Takahashi, Mayank Kumar Singh, Yuki Mitsufuji
- Abstract要約: 歌唱音声変換のための2段階学習手法であるRobostifyを提案する。
第1段階では、生成逆数ネットワークに基づく新しいワンショットSVCモデルがクリーンデータに基づいて訓練され、高品質な変換が保証される。
第2段階では、モデルのエンコーダにエンハンスモジュールを導入し、歪みに対するロバスト性を改善する。
- 参考スコア(独自算出の注目度): 22.489023216333766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing works on singing voice conversion (SVC) require clean
recordings of target singer's voice for training. However, it is often
difficult to collect them in advance and singing voices are often distorted
with reverb and accompaniment music. In this work, we propose robust one-shot
SVC (ROSVC) that performs any-to-any SVC robustly even on such distorted
singing voices using less than 10s of a reference voice. To this end, we
propose two-stage training method called Robustify. In the first stage, a novel
one-shot SVC model based on a generative adversarial network is trained on
clean data to ensure high-quality conversion. In the second stage, enhancement
modules are introduced to the encoders of the model to improve the robustness
against distortions in the feature space. Experimental results show that the
proposed method outperforms one-shot SVC baselines for both seen and unseen
singers and greatly improves the robustness against the distortions.
- Abstract(参考訳): 歌唱音声変換(SVC)に関する多くの既存の研究は、訓練のためにターゲット歌手の声をきれいに記録する必要がある。
しかし、事前に収集することはしばしば困難であり、歌声は残響や伴奏音楽で歪曲されることが多い。
本研究では、参照音声の10秒未満の変形した歌声であっても、任意のSVCを頑健に行う頑健なワンショットSVC(ROSVC)を提案する。
そこで我々はRobostifyと呼ばれる2段階の学習手法を提案する。
第1段階では、生成逆数ネットワークに基づく新しいワンショットSVCモデルがクリーンデータに基づいて訓練され、高品質な変換が保証される。
第2段階では、拡張モジュールがモデルのエンコーダに導入され、特徴空間の歪みに対するロバスト性が向上する。
実験の結果, 提案手法は, シングルショットのsvcベースラインよりも優れており, 歪みに対するロバスト性が大幅に向上した。
関連論文リスト
- SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion [12.454955437047573]
歌声変換(SPA-SVC)のための自己教師付きピッチ拡張法を提案する。
サイクルピッチシフトトレーニング戦略と構造類似度指数(SSIM)の損失をSVCモデルに導入し,その性能を効果的に向上する。
歌唱データセットM4Singerの実験結果から,提案手法はモデル性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-09T08:34:01Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion [15.691936529849539]
シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。
本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
論文 参考訳(メタデータ) (2023-02-27T11:26:57Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding [6.278338686038089]
非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-10-10T10:27:20Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。