論文の概要: Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding
- arxiv url: http://arxiv.org/abs/2110.04754v1
- Date: Sun, 10 Oct 2021 10:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:20:44.733414
- Title: Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding
- Title(参考訳): 音響参照とコントラスト予測符号化を用いた高忠実度歌声変換
- Authors: Chao Wang, Zhonghao Li, Benlai Tang, Xiang Yin, Yuan Wan, Yibiao Yu,
Zejun Ma
- Abstract要約: 非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 6.278338686038089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, phonetic posteriorgrams (PPGs) based methods have been quite
popular in non-parallel singing voice conversion systems. However, due to the
lack of acoustic information in PPGs, style and naturalness of the converted
singing voices are still limited. To solve these problems, in this paper, we
utilize an acoustic reference encoder to implicitly model singing
characteristics. We experiment with different auxiliary features, including mel
spectrograms, HuBERT, and the middle hidden feature (PPG-Mid) of pretrained
automatic speech recognition (ASR) model, as the input of the reference
encoder, and finally find the HuBERT feature is the best choice. In addition,
we use contrastive predictive coding (CPC) module to further smooth the voices
by predicting future observations in latent space. Experiments show that,
compared with the baseline models, our proposed model can significantly improve
the naturalness of converted singing voices and the similarity with the target
singer. Moreover, our proposed model can also make the speakers with just
speech data sing.
- Abstract(参考訳): 近年,非並列歌唱音声変換システムにおいて,PPGに基づく手法が広く普及している。
しかし, PPGの音響情報が不足しているため, 変換された歌声のスタイルや自然さは依然として限られている。
そこで本研究では,音響参照エンコーダを用いて歌唱特性を暗黙的にモデル化する。
我々は,事前訓練された自動音声認識(ASR)モデルのメルスペクトログラム,HuBERT,中間隠れ特徴(PPG-Mid)を基準エンコーダの入力として実験し,最終的にHuBERTの特徴が最適であることを確認した。
さらに, 潜在空間における将来の観測を予測し, 音声の円滑化を図るために, コントラスト予測符号化 (cpc) モジュールを用いた。
実験により,提案モデルがベースラインモデルと比較して,歌唱音声変換の自然性と対象歌唱者との類似性が有意に向上することを示す。
さらに,提案モデルでは,音声データだけで話者を歌わせることもできる。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information [51.02264447897833]
本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
論文 参考訳(メタデータ) (2023-08-31T16:12:01Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。