論文の概要: Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information
- arxiv url: http://arxiv.org/abs/2308.16836v1
- Date: Thu, 31 Aug 2023 16:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 13:55:57.012935
- Title: Towards Improving the Expressiveness of Singing Voice Synthesis with
BERT Derived Semantic Information
- Title(参考訳): BERT派生意味情報を用いた歌声合成の表現性向上に向けて
- Authors: Shaohuan Zhou, Shun Lei, Weiya You, Deyi Tuo, Yuren You, Zhiyong Wu,
Shiyin Kang, Helen Meng
- Abstract要約: 本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
提案したSVSシステムは、高品質なVISingerで歌声を生成することができる。
- 参考スコア(独自算出の注目度): 51.02264447897833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an end-to-end high-quality singing voice synthesis (SVS)
system that uses bidirectional encoder representation from Transformers (BERT)
derived semantic embeddings to improve the expressiveness of the synthesized
singing voice. Based on the main architecture of recently proposed VISinger, we
put forward several specific designs for expressive singing voice synthesis.
First, different from the previous SVS models, we use text representation of
lyrics extracted from pre-trained BERT as additional input to the model. The
representation contains information about semantics of the lyrics, which could
help SVS system produce more expressive and natural voice. Second, we further
introduce an energy predictor to stabilize the synthesized voice and model the
wider range of energy variations that also contribute to the expressiveness of
singing voice. Last but not the least, to attenuate the off-key issues, the
pitch predictor is re-designed to predict the real to note pitch ratio. Both
objective and subjective experimental results indicate that the proposed SVS
system can produce singing voice with higher-quality outperforming VISinger.
- Abstract(参考訳): 本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。
近年提案されているVISingerの主アーキテクチャに基づいて,表現型歌唱音声合成のための特殊設計をいくつか提案した。
まず、従来のSVSモデルとは異なり、事前学習したBERTから抽出した歌詞のテキスト表現をモデルに追加入力として使用する。
この表現には歌詞の意味に関する情報が含まれており、SVSシステムがより表現的で自然な音声を生成するのに役立つ。
第2に,合成音声の安定化と,歌唱音声の表現性に寄与するエネルギー変動の広い範囲をモデル化するためのエネルギー予測器を提案する。
最後に、オフキー問題を軽減するために、ピッチ予測器を再設計し、リアルとノートのピッチ比を予測する。
主観的および主観的な実験結果から,提案したSVSシステムは,より高品質なVISingerで歌声を生成できることが示唆された。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis [63.18764165357298]
ドメイン外歌唱音声合成(SVS)のためのスタイル転送は、目に見えないスタイルで高品質な歌唱音声を生成することに焦点を当てている。
StyleSingerは、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌声合成モデルである。
ゼロショット・スタイル・トランスファーにおける評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースライン・モデルより優れていることを不確実に証明している。
論文 参考訳(メタデータ) (2023-12-17T15:26:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding [6.278338686038089]
非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-10-10T10:27:20Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。