論文の概要: MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation
- arxiv url: http://arxiv.org/abs/2309.10738v1
- Date: Tue, 19 Sep 2023 16:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:34:12.780440
- Title: MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation
- Title(参考訳): MelodyGLM:シンボリックメロディ生成のためのマルチタスク事前学習
- Authors: Xinda Wu, Zhijie Huang, Kejun Zhang, Jiaxing Yu, Xu Tan, Tieyao Zhang,
Zihao Wang, Lingyun Sun
- Abstract要約: MelodyGLMは長期構造を持つメロディを生成するためのマルチタスク事前学習フレームワークである。
我々は,0.4百万以上のメロディを含む大規模な記号的メロディデータセットMelodyNetを構築した。
- 参考スコア(独自算出の注目度): 39.892059799407434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have achieved impressive results in various music
understanding and generation tasks. However, existing pre-training methods for
symbolic melody generation struggle to capture multi-scale, multi-dimensional
structural information in note sequences, due to the domain knowledge
discrepancy between text and music. Moreover, the lack of available large-scale
symbolic melody datasets limits the pre-training improvement. In this paper, we
propose MelodyGLM, a multi-task pre-training framework for generating melodies
with long-term structure. We design the melodic n-gram and long span sampling
strategies to create local and global blank infilling tasks for modeling the
local and global structures in melodies. Specifically, we incorporate pitch
n-grams, rhythm n-grams, and their combined n-grams into the melodic n-gram
blank infilling tasks for modeling the multi-dimensional structures in
melodies. To this end, we have constructed a large-scale symbolic melody
dataset, MelodyNet, containing more than 0.4 million melody pieces. MelodyNet
is utilized for large-scale pre-training and domain-specific n-gram lexicon
construction. Both subjective and objective evaluations demonstrate that
MelodyGLM surpasses the standard and previous pre-training methods. In
particular, subjective evaluations show that, on the melody continuation task,
MelodyGLM achieves average improvements of 0.82, 0.87, 0.78, and 0.94 in
consistency, rhythmicity, structure, and overall quality, respectively.
Notably, MelodyGLM nearly matches the quality of human-composed melodies on the
melody inpainting task.
- Abstract(参考訳): 事前学習された言語モデルは、様々な音楽理解と生成タスクで印象的な結果を得ている。
しかし,記号的メロディ生成のための既存の事前学習手法では,テキストと音楽間のドメイン知識の相違により,音符列内の多次元構造情報の取得に苦慮している。
さらに、利用可能な大規模シンボリックなメロディデータセットがないため、事前トレーニングの改善は制限される。
本稿では,長期構造を持つメロディ生成のためのマルチタスク事前学習フレームワークであるmelodyglmを提案する。
メロディにおける局所的およびグローバルな構造をモデル化するための局所的およびグローバルな空白埋め込みタスクを作成するために,メロディックn-gramと長スパンサンプリング戦略を設計する。
具体的には、メロディの多次元構造をモデル化するために、ピッチ n-gram 、リズム n-gram およびそれらの組み合わせ n-gram をメロディ n-gram ブランク埋込みタスクに組み込む。
この目的のために,0.4百万以上のメロディ楽曲を含む,大規模なシンボリックメロディデータセットであるmelodynetを構築した。
MelodyNetは大規模事前学習とドメイン固有のn-gramレキシコン構築に利用されている。
主観的および客観的評価は、MelodyGLMが標準および以前の事前学習方法を上回ることを示す。
特に主観評価では,メロディ継続タスクにおいて,メロディGLMは,それぞれ0.82,0.87,0.78,0.94の整合性,リズム性,構造,全体的な品質を平均的に向上させる。
特に、メロディglmは、人間の作曲したメロディの品質とほぼ一致している。
関連論文リスト
- SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - WuYun: Exploring hierarchical skeleton-guided melody generation using
knowledge-enhanced deep learning [26.515527387450636]
WuYunは、生成された旋律の構造を改善するための知識に富んだディープラーニングアーキテクチャである。
音楽領域の知識を用いてメロディカルスケルトンを抽出し、シーケンシャルラーニングを用いて再構成する。
We demonstrate that WuYun can generate melodies with better long-term structure and musicality and improves other-of-the-art method by average 0.51。
論文 参考訳(メタデータ) (2023-01-11T14:33:42Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Controllable deep melody generation via hierarchical music structure
representation [14.891975420982511]
MusicFrameworksは階層的な音楽構造表現であり、フル長のメロディを作成するための多段階の生成プロセスである。
各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成する。
さまざまな曲をカスタマイズしたり追加したりするために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更して、それに応じてネットワークがメロディを生成する。
論文 参考訳(メタデータ) (2021-09-02T01:31:14Z) - Hierarchical Recurrent Neural Networks for Conditional Melody Generation
with Long-term Structure [0.0]
階層型リカレントニューラルネットワークを用いた条件付きメロディ生成モデルを提案する。
このモデルは、与えられたコード伴奏に基づいて長期構造を持つメロディーを生成する。
聴取試験の結果,CM-HRNNは長期的構造と総合評価においてアテンションRNNよりも優れていた。
論文 参考訳(メタデータ) (2021-02-19T08:22:26Z) - SongMASS: Automatic Song Writing with Pre-training and Alignment
Constraint [54.012194728496155]
SongMASSは、歌詞からメロディーへの生成とメロディから歌詞への生成の課題を克服するために提案されている。
マスクドシーケンスを利用して、シーケンス(質量)事前トレーニングと注意に基づくアライメントモデリングを行う。
我々は,SongMASSがベースライン法よりもはるかに高品質な歌詞とメロディを生成することを示す。
論文 参考訳(メタデータ) (2020-12-09T16:56:59Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Exploring Inherent Properties of the Monophonic Melody of Songs [10.055143995729415]
本稿では,音韻メロディの解釈可能な特徴の集合を計算目的で提案する。
これらの特徴は数学的形式だけでなく、作曲家の直観にも考慮されている。
これらの特徴は、合唱的な作曲の実践であっても、多くのジャンルの歌において普遍的に人々によって考慮されている。
論文 参考訳(メタデータ) (2020-03-20T14:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。