論文の概要: NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
- arxiv url: http://arxiv.org/abs/2502.18008v5
- Date: Fri, 21 Mar 2025 12:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:09.975359
- Title: NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
- Title(参考訳): NotaGen:大規模言語モデル学習パラダイムを用いたシンボリック音楽生成における音楽性向上
- Authors: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun,
- Abstract要約: NotaGenは、高品質なクラシック楽譜を制作する可能性を探究する象徴的な音楽生成モデルである。
ABC表記の1.6万曲に事前訓練され、その後「時代劇構成」のプロンプトで調整された約9Kの高音質のクラシック曲に微調整される。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
- 参考スコア(独自算出の注目度): 39.0194983652815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NotaGen, a symbolic music generation model aiming to explore the potential of producing high-quality classical sheet music. Inspired by the success of Large Language Models (LLMs), NotaGen adopts pre-training, fine-tuning, and reinforcement learning paradigms (henceforth referred to as the LLM training paradigms). It is pre-trained on 1.6M pieces of music in ABC notation, and then fine-tuned on approximately 9K high-quality classical compositions conditioned on "period-composer-instrumentation" prompts. For reinforcement learning, we propose the CLaMP-DPO method, which further enhances generation quality and controllability without requiring human annotations or predefined rewards. Our experiments demonstrate the efficacy of CLaMP-DPO in symbolic music generation models with different architectures and encoding schemes. Furthermore, subjective A/B tests show that NotaGen outperforms baseline models against human compositions, greatly advancing musical aesthetics in symbolic music generation.
- Abstract(参考訳): 高品質なクラシック楽譜を制作する可能性を探るための象徴的音楽生成モデルであるNotaGenを紹介する。
LLM(Large Language Models)の成功に触発されたNotaGenは、事前学習、微調整、強化学習パラダイム(LLMトレーニングパラダイムと呼ばれる)を採用している。
ABC表記の1.6万曲に事前訓練され、その後「時代劇構成」のプロンプトで調整された約9Kの高音質のクラシック曲に微調整される。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
CLaMP-DPOの異なるアーキテクチャと符号化方式を用いたシンボリック音楽生成モデルにおける有効性を示す。
さらに、主観的A/Bテストでは、NotaGenは人間の作曲に対してベースラインモデルよりも優れており、シンボリック・ミュージック・ジェネレーションにおける音楽の美学が大幅に向上している。
関連論文リスト
- Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.643965544581683]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。
MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。
実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-25T12:51:21Z) - YuE: Scaling Open Foundation Models for Long-Form Music Generation [134.54174498094565]
YuEはLLaMA2アーキテクチャに基づいたオープンファンデーションモデルのファミリーである。
歌詞のアライメント、コヒーレントな音楽構造、適切な伴奏を伴う声楽メロディを維持しながら、最大5分間の音楽を生成する。
論文 参考訳(メタデータ) (2025-03-11T17:26:50Z) - Music Generation using Human-In-The-Loop Reinforcement Learning [0.0]
本稿では,Human-In-The-Loop Reinforcement Learning (HITL RL) と音楽理論から派生した原理を組み合わせた楽曲のリアルタイム生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-25T19:01:51Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - Dual-track Music Generation using Deep Learning [1.0312968200748118]
左利きと右利きのピアノ音楽の相互依存性をモデル化可能な,クラシックピアノ音楽を生成するための新しいデュアルトラックアーキテクチャを提案する。
評価手法として,MuseGANプロジェクトと真の音楽を比較した。
論文 参考訳(メタデータ) (2020-05-09T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。