論文の概要: Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment
- arxiv url: http://arxiv.org/abs/2404.09313v3
- Date: Mon, 20 May 2024 05:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 22:31:13.238817
- Title: Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment
- Title(参考訳): テキストから歌へ:声と伴奏を取り入れた制御可能な音楽生成を目指して
- Authors: Zhiqing Hong, Rongjie Huang, Xize Cheng, Yongqi Wang, Ruiqi Li, Fuming You, Zhou Zhao, Zhimeng Zhang,
- Abstract要約: ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
- 参考スコア(独自算出の注目度): 56.019288564115136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A song is a combination of singing voice and accompaniment. However, existing works focus on singing voice synthesis and music generation independently. Little attention was paid to explore song synthesis. In this work, we propose a novel task called text-to-song synthesis which incorporating both vocals and accompaniments generation. We develop Melodist, a two-stage text-to-song method that consists of singing voice synthesis (SVS) and vocal-to-accompaniment (V2A) synthesis. Melodist leverages tri-tower contrastive pretraining to learn more effective text representation for controllable V2A synthesis. A Chinese song dataset mined from a music website is built up to alleviate data scarcity for our research. The evaluation results on our dataset demonstrate that Melodist can synthesize songs with comparable quality and style consistency. Audio samples can be found in https://text2songMelodist.github.io/Sample/.
- Abstract(参考訳): 歌は歌声と伴奏の組み合わせである。
しかし、既存の作品では、歌声合成と音楽生成を独立して重視している。
歌の合成を探求するためにはほとんど注意が払われなかった。
そこで本研究では,音声と伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
メロディストは、トリトウワーコントラスト事前学習を利用して、制御可能なV2A合成のためのより効果的なテキスト表現を学習する。
音楽サイトから発掘された中国の歌のデータセットは、我々の研究のためにデータ不足を軽減するために構築されている。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
オーディオサンプルはhttps://text2songMelodist.github.io/Sample/で見ることができる。
関連論文リスト
- Sing-On-Your-Beat: Simple Text-Controllable Accompaniment Generations [5.56093728482997]
本稿では,テキストプロンプトによる伴奏制御を実現するための簡単な手法を提案する。
広範にわたる実験により,音声入力とテキスト制御を用いて10秒の伴奏を生成することに成功した。
論文 参考訳(メタデータ) (2024-11-03T19:17:20Z) - Constructing a Singing Style Caption Dataset [12.515874333424929]
多様な属性セットを持つ音声テキストペアデータセットであるS2Capを紹介する。
S2Capは、テキストプロンプトと、幅広い声と音楽の属性を持つオーディオサンプルのペアで構成されている。
本稿では,事前学習したオーディオエンコーダの埋め込み空間の同期化に正対類似性学習を利用するCRESCENDOという新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2024-09-15T21:19:24Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - SingSong: Generating musical accompaniments from singing [35.819589427197464]
入力ボーカルに付随する楽器音楽を生成するシステムであるSingSongについて述べる。
同じ音声入力と比較して、リスナーはSingSongが生成したインストゥルメンタルに対して重要な嗜好を表現した。
論文 参考訳(メタデータ) (2023-01-30T04:53:23Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。