論文の概要: Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis
- arxiv url: http://arxiv.org/abs/2202.07907v1
- Date: Wed, 16 Feb 2022 07:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 16:21:00.934592
- Title: Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis
- Title(参考訳): 歌声タコトロン:終末音声合成のための大域的持続時間制御と動的フィルタ
- Authors: Tao Wang, Ruibo Fu, Jiangyan Yi, Jianhua Tao, Zhengqi Wen
- Abstract要約: 本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
- 参考スコア(独自算出の注目度): 67.96138567288197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end singing voice synthesis (SVS) is attractive due to the avoidance
of pre-aligned data. However, the auto learned alignment of singing voice with
lyrics is difficult to match the duration information in musical score, which
will lead to the model instability or even failure to synthesize voice. To
learn accurate alignment information automatically, this paper proposes an
end-to-end SVS framework, named Singing-Tacotron. The main difference between
the proposed framework and Tacotron is that the speech can be controlled
significantly by the musical score's duration information. Firstly, we propose
a global duration control attention mechanism for the SVS model. The attention
mechanism can control each phoneme's duration. Secondly, a duration encoder is
proposed to learn a set of global transition tokens from the musical score.
These transition tokens can help the attention mechanism decide whether moving
to the next phoneme or staying at each decoding step. Thirdly, to further
improve the model's stability, a dynamic filter is designed to help the model
overcome noise interference and pay more attention to local context
information. Subjective and objective evaluation verify the effectiveness of
the method. Furthermore, the role of global transition tokens and the effect of
duration control are explored. Examples of experiments can be found at
https://hairuo55.github.io/SingingTacotron.
- Abstract(参考訳): SVS(End-to-end singing voice synthesis)は、事前整列データを避けるため魅力的である。
しかし、歌唱音声と歌詞のアライメントを自動学習することは、楽譜の持続時間情報と一致させることが困難であり、モデル不安定性や音声合成の失敗につながる。
正確なアライメント情報を自動的に学習するために,Singing-TacotronというエンドツーエンドのSVSフレームワークを提案する。
提案手法とタコトロンの主な違いは、音声が楽譜の持続時間情報によって著しく制御できることである。
まず,SVSモデルに対するグローバル持続時間制御アテンション機構を提案する。
注意機構は各音素の持続時間を制御することができる。
第2に、楽譜からグローバルな遷移トークンの集合を学ぶために、持続エンコーダを提案する。
これらの遷移トークンは、注意機構が次の音素に移動するか、各復号ステップに留まるかを決定するのに役立つ。
第3に、モデルの安定性をさらに向上するため、動的フィルタは、モデルがノイズ干渉を克服し、局所的なコンテキスト情報により多くの注意を払うのに役立つように設計されている。
主観的および客観的評価は、その方法の有効性を検証する。
さらに,グローバル遷移トークンの役割と持続時間制御の効果について検討した。
実験の例は https://hairuo55.github.io/SingingTacotron にある。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual
Voice Conversion [2.3443118032034396]
本稿では,サイクル構造とメル-スペクトログラム前処理を備えた,シンプルで堅牢なゼロショット音声変換システムを提案する。
我々のモデルは、主観的・客観的評価において、既存の最先端の成果よりも優れています。
論文 参考訳(メタデータ) (2023-10-10T11:50:16Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Singing voice synthesis based on frame-level sequence-to-sequence models
considering vocal timing deviation [15.185681242504467]
発声タイミング偏差を考慮したフレームレベルのシーケンス・ツー・シーケンスモデルに基づく歌声合成(SVS)
SVSでは、実際の発声タイミングと音符開始タイミングの違いを考慮して、スコアで表される時間構造と歌唱のタイミングを同期させることが不可欠である。
論文 参考訳(メタデータ) (2023-01-05T19:00:10Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Prosodic Clustering for Phoneme-level Prosody Control in End-to-End
Speech Synthesis [49.6007376399981]
本稿では,自己回帰的注意に基づく音声合成システムにおいて,音素レベルでの韻律制御手法を提案する。
提案手法は、F0と持続時間の音素レベル制御を可能とし、生成した音声の品質を維持する。
F0クラスタのセントロイドを音符に置き換えることで、モデルはスピーカーの範囲内で音符とオクターブを制御できる。
論文 参考訳(メタデータ) (2021-11-19T12:10:16Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。