論文の概要: Accompanied Singing Voice Synthesis with Fully Text-controlled Melody
- arxiv url: http://arxiv.org/abs/2407.02049v1
- Date: Tue, 2 Jul 2024 08:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:14:40.375231
- Title: Accompanied Singing Voice Synthesis with Fully Text-controlled Melody
- Title(参考訳): 完全テキスト制御メロディによる伴奏歌声合成
- Authors: Ruiqi Li, Zhiqing Hong, Yongqi Wang, Lichao Zhang, Rongjie Huang, Siqi Zheng, Zhou Zhao,
- Abstract要約: Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
- 参考スコア(独自算出の注目度): 61.147446955297625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-song (TTSong) is a music generation task that synthesizes accompanied singing voices. Current TTSong methods, inherited from singing voice synthesis (SVS), require melody-related information that can sometimes be impractical, such as music scores or MIDI sequences. We present MelodyLM, the first TTSong model that generates high-quality song pieces with fully text-controlled melodies, achieving minimal user requirements and maximum control flexibility. MelodyLM explicitly models MIDI as the intermediate melody-related feature and sequentially generates vocal tracks in a language model manner, conditioned on textual and vocal prompts. The accompaniment music is subsequently synthesized by a latent diffusion model with hybrid conditioning for temporal alignment. With minimal requirements, users only need to input lyrics and a reference voice to synthesize a song sample. For full control, just input textual prompts or even directly input MIDI. Experimental results indicate that MelodyLM achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://melodylm666.github.io.
- Abstract(参考訳): Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
現在のTTSong法は、歌声合成(SVS)から受け継がれており、音楽スコアやMIDIシーケンスなど、時には非現実的なメロディ関連の情報を必要とする。
我々は,テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案し,最小限のユーザ要件と最大制御柔軟性を実現する。
メロディLMは、MIDIを中間メロディ関連の特徴として明示的にモデル化し、テキストと音声のプロンプトに基づいて、言語モデルで声楽トラックを逐次生成する。
その後、伴奏音楽は、時間的アライメントのためのハイブリッド条件付潜時拡散モデルにより合成される。
最小限の要件で、ユーザは歌詞と参照音声を入力するだけで、歌のサンプルを合成できる。
完全な制御を行うには、テキストプロンプトを入力するか、直接MIDIを入力すればよい。
実験結果から,MelodyLMは客観的,主観的両指標の両面において優れた性能を示した。
オーディオサンプルはhttps://melodylm666.github.io.comで入手できる。
関連論文リスト
- Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを使わずに開発することができる。
まず、MIDI入力に基づいて結合的な合成を行い、音声のみのデータセットに基づいて訓練された拡散に基づく深層生成モデルを用いて、結果のオーディオをリアルなトラックに洗練する。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。
提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-10-13T07:42:35Z) - TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage
Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。
高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文 参考訳(メタデータ) (2021-09-20T15:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。