論文の概要: Versatile Framework for Song Generation with Prompt-based Control
- arxiv url: http://arxiv.org/abs/2504.19062v3
- Date: Fri, 30 May 2025 10:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.833124
- Title: Versatile Framework for Song Generation with Prompt-based Control
- Title(参考訳): プロンプト制御による楽曲生成のためのヴァーサタイルフレームワーク
- Authors: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao,
- Abstract要約: VersBandは、高品質でアライメントのある曲をプロンプトベースのコントロールで合成するためのフレームワークである。
分離されたモデルであるVocalBandは、歌唱スタイル、ピッチ、メル-スペクトログラムを生成するためのフローマッチング手法を利用している。
フローベースのトランスフォーマーモデルであるAccompBandは、Band-MOEを取り入れ、品質、アライメント、制御の強化に適した専門家を選択する。
歌詞用LyricBandとメロディー用MelodyBandの2世代モデルは、総合的なマルチタスク・ソング生成システムに貢献している。
- 参考スコア(独自算出の注目度): 50.359999116420084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Song generation focuses on producing controllable high-quality songs based on various prompts. However, existing methods struggle to generate vocals and accompaniments with prompt-based control and proper alignment. Additionally, they fall short in supporting various tasks. To address these challenges, we introduce VersBand, a multi-task song generation framework for synthesizing high-quality, aligned songs with prompt-based control. VersBand comprises these primary models: 1) VocalBand, a decoupled model, leverages the flow-matching method for generating singing styles, pitches, and mel-spectrograms, allowing fast, high-quality vocal generation with style control. 2) AccompBand, a flow-based transformer model, incorporates the Band-MOE, selecting suitable experts for enhanced quality, alignment, and control. This model allows for generating controllable, high-quality accompaniments aligned with vocals. 3) Two generation models, LyricBand for lyrics and MelodyBand for melodies, contribute to the comprehensive multi-task song generation system, allowing for extensive control based on multiple prompts. Experimental results demonstrate that VersBand performs better over baseline models across multiple song generation tasks using objective and subjective metrics. Audio samples are available at https://aaronz345.github.io/VersBandDemo.
- Abstract(参考訳): 曲生成は、様々なプロンプトに基づいて制御可能な高品質の曲を作り出すことに焦点を当てている。
しかし、既存の手法は、アクシデントベースの制御と適切なアライメントを備えたボーカルや伴奏を生成するのに苦労している。
さらに、それらは様々なタスクをサポートするのに不足しています。
これらの課題に対処するために,高品質なアライメントされた曲をプロンプトベースの制御で合成するマルチタスクの曲生成フレームワークであるVersBandを紹介した。
VersBandはこれらの主要なモデルで構成されています。
1) 分離モデルであるVocalBandは,歌唱スタイル,ピッチ,メル-スペクトログラムを生成するためのフローマッチング手法を活用し,高速で高品質な声質生成を実現する。
2) フローベーストランスモデルであるAccompBandはBand-MOEを導入し,品質向上,アライメント,制御に適した専門家を選択する。
このモデルでは、声楽に合わせて制御可能で高品質な伴奏を生成することができる。
3)歌詞用LyricBandとメロディー用MelodyBandの2世代モデルでは,複数のプロンプトに基づいて広範囲に制御できる包括的マルチタスク・ソング生成システムに寄与する。
実験結果から,VersBandは,主観的および主観的尺度を用いて,複数の楽曲生成タスクのベースラインモデルよりも優れていることが示された。
オーディオサンプルはhttps://aaronz345.github.io/VersBandDemoで入手できる。
関連論文リスト
- SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - CSL-L2M: Controllable Song-Level Lyric-to-Melody Generation Based on Conditional Transformer with Fine-Grained Lyric and Musical Controls [28.13660104055298]
CSL-L2Mは、インアテンショントランスフォーマーデコーダに基づく、制御可能な歌声レベル・歌詞・メロディ生成法である。
REMI-Alignedは、歌詞と旋律の間の厳格な音節と文レベルのアライメントを含む新しい音楽表現である。
事前学習したVQ-VAEから抽出した人間のラベル付き音楽タグ、文レベルの統計的音楽属性、学習された音楽特徴について紹介する。
論文 参考訳(メタデータ) (2024-12-13T06:05:53Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。