論文の概要: Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training
- arxiv url: http://arxiv.org/abs/2309.00284v1
- Date: Fri, 1 Sep 2023 06:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:23:42.995967
- Title: Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training
- Title(参考訳): メロディ教師なし事前学習によるシングルスピーカ発声音声合成の発声域向上
- Authors: Shaohuan Zhou, Xu Li, Zhiyong Wu, Ying Shan, Helen Meng
- Abstract要約: 本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 82.94349771571642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The single-speaker singing voice synthesis (SVS) usually underperforms at
pitch values that are out of the singer's vocal range or associated with
limited training samples. Based on our previous work, this work proposes a
melody-unsupervised multi-speaker pre-training method conducted on a
multi-singer dataset to enhance the vocal range of the single-speaker, while
not degrading the timbre similarity. This pre-training method can be deployed
to a large-scale multi-singer dataset, which only contains audio-and-lyrics
pairs without phonemic timing information and pitch annotation. Specifically,
in the pre-training step, we design a phoneme predictor to produce the
frame-level phoneme probability vectors as the phonemic timing information and
a speaker encoder to model the timbre variations of different singers, and
directly estimate the frame-level f0 values from the audio to provide the pitch
information. These pre-trained model parameters are delivered into the
fine-tuning step as prior knowledge to enhance the single speaker's vocal
range. Moreover, this work also contributes to improving the sound quality and
rhythm naturalness of the synthesized singing voices. It is the first to
introduce a differentiable duration regulator to improve the rhythm naturalness
of the synthesized voice, and a bi-directional flow model to improve the sound
quality. Experimental results verify that the proposed SVS system outperforms
the baseline on both sound quality and naturalness.
- Abstract(参考訳): シングルスピーカーの歌声合成(SVS)は通常、歌手の声域外、または限られた訓練サンプルと関連付けられたピッチ値で過小評価される。
本研究は,先行研究に基づき,マルチシンガーデータセット上で実施したメロディなしマルチ話者事前学習法を提案し,音色類似度を低下させずに単一話者の声域を拡大する。
この事前学習方法は、音韻タイミング情報やピッチアノテーションのない音声と歌詞のペアのみを含む大規模マルチシンガーデータセットに展開することができる。
具体的には、事前学習段階において、音韻レベルの確率ベクトルを音韻タイミング情報として生成する音素予測器と、異なるシンガーの音色変化をモデル化する話者エンコーダを設計し、その音素レベルのf0値を直接推定してピッチ情報を提供する。
これらの事前訓練されたモデルパラメータは、単一話者の発声域を高めるための事前知識として微調整段階に配信される。
さらに、この研究は、合成された歌声の音質やリズムの自然さの向上にも貢献する。
合成音声のリズム的自然性を改善するための微分可能持続時間調整器と、音質を改善するための双方向フローモデルを導入する。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。