論文の概要: NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
- arxiv url: http://arxiv.org/abs/2502.18008v1
- Date: Tue, 25 Feb 2025 09:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:11.111154
- Title: NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
- Title(参考訳): NotaGen:大規模言語モデル学習パラダイムを用いたシンボリック音楽生成における音楽性向上
- Authors: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun,
- Abstract要約: NotaGenは、高品質なクラシック楽譜を制作する可能性を探究する象徴的な音楽生成モデルである。
1.6万曲の楽譜を事前訓練し、その後「時代劇構成」のプロンプトを条件に、約9Kの高音質のクラシック曲を微調整する。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
- 参考スコア(独自算出の注目度): 39.0194983652815
- License:
- Abstract: We introduce NotaGen, a symbolic music generation model aiming to explore the potential of producing high-quality classical sheet music. Inspired by the success of Large Language Models (LLMs), NotaGen adopts pre-training, fine-tuning, and reinforcement learning paradigms (henceforth referred to as the LLM training paradigms). It is pre-trained on 1.6M pieces of music, and then fine-tuned on approximately 9K high-quality classical compositions conditioned on "period-composer-instrumentation" prompts. For reinforcement learning, we propose the CLaMP-DPO method, which further enhances generation quality and controllability without requiring human annotations or predefined rewards. Our experiments demonstrate the efficacy of CLaMP-DPO in symbolic music generation models with different architectures and encoding schemes. Furthermore, subjective A/B tests show that NotaGen outperforms baseline models against human compositions, greatly advancing musical aesthetics in symbolic music generation.The project homepage is https://electricalexis.github.io/notagen-demo.
- Abstract(参考訳): 高品質なクラシック楽譜を制作する可能性を探るための象徴的音楽生成モデルであるNotaGenを紹介する。
LLM(Large Language Models)の成功に触発されたNotaGenは、事前学習、微調整、強化学習パラダイム(LLMトレーニングパラダイムと呼ばれる)を採用している。
1.6万曲の楽譜を事前訓練し、その後「時代劇構成」のプロンプトを条件に、約9Kの高音質のクラシック曲を微調整する。
強化学習のためのCLaMP-DPO法は,人間のアノテーションや事前定義された報酬を必要とせずに,生成品質と制御性をさらに向上する。
CLaMP-DPOの異なるアーキテクチャと符号化方式を用いたシンボリック音楽生成モデルにおける有効性を示す。
さらに、主観的なA/Bテストでは、NotaGenは人間の作曲に対してベースラインモデルより優れており、シンボリック・ミュージック・ジェネレーションにおいて音楽の美学が大幅に向上している。
関連論文リスト
- Music Generation using Human-In-The-Loop Reinforcement Learning [0.0]
本稿では,Human-In-The-Loop Reinforcement Learning (HITL RL) と音楽理論から派生した原理を組み合わせた楽曲のリアルタイム生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-25T19:01:51Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Dual-track Music Generation using Deep Learning [1.0312968200748118]
左利きと右利きのピアノ音楽の相互依存性をモデル化可能な,クラシックピアノ音楽を生成するための新しいデュアルトラックアーキテクチャを提案する。
評価手法として,MuseGANプロジェクトと真の音楽を比較した。
論文 参考訳(メタデータ) (2020-05-09T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。