論文の概要: A Melody-Unsupervision Model for Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2110.06546v1
- Date: Wed, 13 Oct 2021 07:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 23:54:30.779749
- Title: A Melody-Unsupervision Model for Singing Voice Synthesis
- Title(参考訳): 歌声合成のためのメロディ・アンスーパービジョンモデル
- Authors: Soonbeom Choi and Juhan Nam
- Abstract要約: トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
- 参考スコア(独自算出の注目度): 9.137554315375919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in singing voice synthesis have achieved high-quality results
leveraging advances in text-to-speech models based on deep neural networks. One
of the main issues in training singing voice synthesis models is that they
require melody and lyric labels to be temporally aligned with audio data. The
temporal alignment is a time-exhausting manual work in preparing for the
training data. To address the issue, we propose a melody-unsupervision model
that requires only audio-and-lyrics pairs without temporal alignment in
training time but generates singing voice audio given a melody and lyrics input
in inference time. The proposed model is composed of a phoneme classifier and a
singing voice generator jointly trained in an end-to-end manner. The model can
be fine-tuned by adjusting the amount of supervision with temporally aligned
melody labels. Through experiments in melody-unsupervision and semi-supervision
settings, we compare the audio quality of synthesized singing voice. We also
show that the proposed model is capable of being trained with speech audio and
text labels but can generate singing voice in inference time.
- Abstract(参考訳): 歌唱音声合成の最近の研究は、ディープニューラルネットワークに基づく音声合成モデルの進歩を生かした高品質な結果を得た。
歌声合成モデルの訓練における主な問題の一つは、メロディと歌詞のラベルを音声データと時間的に一致させる必要があることである。
時間的アライメントは、トレーニングデータの準備において、タイムアウトのマニュアルワークである。
そこで本研究では,学習時間に時間的アライメントを要せず,推定時間内にメロディと歌詞入力が与えられた歌唱音声を生成するメロディ・アンスーパービジョンモデルを提案する。
提案モデルでは,音素分類器と歌唱音声生成器をエンドツーエンドで共同で訓練する。
このモデルは、時間調整されたメロディラベルで監督の量を調整することで微調整することができる。
メロディアンスーパービジョン設定と半スーパービジョン設定の実験を通じて,合成歌唱音声の音響品質を比較する。
また,提案モデルでは音声音声とテキストラベルを訓練できるが,推定時間内に歌唱音声を生成することができることを示す。
関連論文リスト
- Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices [4.167459103689587]
人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
論文 参考訳(メタデータ) (2022-04-05T10:02:39Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - An Empirical Study on End-to-End Singing Voice Synthesis with
Encoder-Decoder Architectures [11.440111473570196]
歌唱音声合成を実現するために,エンコーダ・デコーダニューラルモデルと多数のボコーダを用いる。
本研究は,音声データと音声情報,歌詞,ビート情報を用いて,モデルが訓練可能であることを示す実験である。
論文 参考訳(メタデータ) (2021-08-06T08:51:16Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。