論文の概要: CSL-L2M: Controllable Song-Level Lyric-to-Melody Generation Based on Conditional Transformer with Fine-Grained Lyric and Musical Controls
- arxiv url: http://arxiv.org/abs/2412.09887v1
- Date: Fri, 13 Dec 2024 06:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:45.616849
- Title: CSL-L2M: Controllable Song-Level Lyric-to-Melody Generation Based on Conditional Transformer with Fine-Grained Lyric and Musical Controls
- Title(参考訳): CSL-L2M:きめ細かい歌詞と音楽制御を用いたコンディション変換器による歌声レベル歌詞・メロディ生成
- Authors: Li Chai, Donglin Wang,
- Abstract要約: CSL-L2Mは、インアテンショントランスフォーマーデコーダに基づく、制御可能な歌声レベル・歌詞・メロディ生成法である。
REMI-Alignedは、歌詞と旋律の間の厳格な音節と文レベルのアライメントを含む新しい音楽表現である。
事前学習したVQ-VAEから抽出した人間のラベル付き音楽タグ、文レベルの統計的音楽属性、学習された音楽特徴について紹介する。
- 参考スコア(独自算出の注目度): 28.13660104055298
- License:
- Abstract: Lyric-to-melody generation is a highly challenging task in the field of AI music generation. Due to the difficulty of learning strict yet weak correlations between lyrics and melodies, previous methods have suffered from weak controllability, low-quality and poorly structured generation. To address these challenges, we propose CSL-L2M, a controllable song-level lyric-to-melody generation method based on an in-attention Transformer decoder with fine-grained lyric and musical controls, which is able to generate full-song melodies matched with the given lyrics and user-specified musical attributes. Specifically, we first introduce REMI-Aligned, a novel music representation that incorporates strict syllable- and sentence-level alignments between lyrics and melodies, facilitating precise alignment modeling. Subsequently, sentence-level semantic lyric embeddings independently extracted from a sentence-wise Transformer encoder are combined with word-level part-of-speech embeddings and syllable-level tone embeddings as fine-grained controls to enhance the controllability of lyrics over melody generation. Then we introduce human-labeled musical tags, sentence-level statistical musical attributes, and learned musical features extracted from a pre-trained VQ-VAE as coarse-grained, fine-grained and high-fidelity controls, respectively, to the generation process, thereby enabling user control over melody generation. Finally, an in-attention Transformer decoder technique is leveraged to exert fine-grained control over the full-song melody generation with the aforementioned lyric and musical conditions. Experimental results demonstrate that our proposed CSL-L2M outperforms the state-of-the-art models, generating melodies with higher quality, better controllability and enhanced structure. Demos and source code are available at https://lichaiustc.github.io/CSL-L2M/.
- Abstract(参考訳): 歌詞からメロディ生成は、AI音楽生成の分野で非常に難しい課題である。
歌詞と旋律の厳密な相関関係の学習が困難であったため、従来の手法は制御性の弱さ、品質の低さ、構造化の低さに悩まされてきた。
これらの課題に対処するために,CSL-L2Mを提案する。CSL-L2Mは,歌詞とユーザが指定した音楽属性にマッチした全曲のメロディを生成可能な,微粒な歌詞と音楽制御を備えたインアテンショントランスフォーマーデコーダに基づく楽曲レベル・メロディ生成手法である。
具体的には、まず、歌詞と旋律の厳密な音節と文レベルのアライメントを組み込んだ新しい音楽表現であるREMI-Alignedを紹介し、正確なアライメントモデリングを容易にする。
その後、センテンスワイズトランスフォーマーエンコーダから独立して抽出された文レベルの意味的歌詞埋め込みと、音節レベルの音調埋め込みとを微粒化制御として組み合わせ、メロディ生成による歌詞の制御性を高める。
次に, 人間のラベル付き音楽タグ, 文レベルの統計的音楽属性, 事前学習したVQ-VAEから抽出した音楽特徴を, 粗粒度, きめ細粒度および高忠実度制御として生成プロセスに導入し, メロディ生成に対するユーザ制御を実現する。
最後に、インアテンショントランスフォーマーデコーダ技術を利用して、上記の歌詞と音楽の条件で全曲メロディ生成をきめ細かな制御を行う。
実験の結果,提案したCSL-L2Mは最先端モデルより優れ,高品質なメロディ生成,制御性の向上,構造強化を実現している。
デモとソースコードはhttps://lichaiustc.github.io/CSL-L2M/で入手できる。
関連論文リスト
- Syllable-level lyrics generation from melody exploiting character-level
language model [14.851295355381712]
シンボリック・メロディから音節レベルの歌詞を生成するための微調整文字レベル言語モデルを提案する。
特に,言語モデルの言語知識を音節レベルのトランスフォーマー生成ネットワークのビームサーチプロセスに組み込む手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T02:53:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Controllable Lyrics-to-Melody Generation [14.15838552524433]
ユーザは好みの音楽スタイルで歌詞からリアルなメロディを生成できる、制御可能な歌詞・メロディ生成ネットワークであるConL2Mを提案する。
本研究は,音楽属性の依存関係を複数のシーケンスをまたいでモデル化するため,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するためにメモリ間融合(Memofu)を提案し,参照スタイル埋め込み(RSE)を提案し,生成したメロディの音楽スタイルを制御し,シーケンスレベルの統計的損失(SeqLoss)をモデルがシーケンスレベルを学習するのに役立つように提案した。
論文 参考訳(メタデータ) (2023-06-05T06:14:08Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Interpretable Melody Generation from Lyrics with Discrete-Valued
Adversarial Training [12.02541352832997]
Gumbel-Softmaxは、GAN(Generative Adversarial Networks)による音楽属性生成の非微分性問題を解決するために利用される。
ユーザーは生成されたAI曲を聴くだけでなく、推奨音楽属性から選択することで新しい曲を再生することができる。
論文 参考訳(メタデータ) (2022-06-30T05:45:47Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。