論文の概要: From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training
- arxiv url: http://arxiv.org/abs/2506.17497v1
- Date: Fri, 20 Jun 2025 22:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.442267
- Title: From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training
- Title(参考訳): 一般性から熟達へ:大規模事前学習による作曲家スタイルのシンボリック音楽生成
- Authors: Mingyang Yao, Ke Chen,
- Abstract要約: 広義のコーパスから学んだ一般的な音楽知識が、特定の作曲家スタイルの熟達度をいかに高めるかを検討する。
まず、ポップ、フォーク、クラシック音楽の大規模なコーパス上で、REMIベースの音楽生成モデルを事前訓練する。
そして、Bach、Mozart、Beethoven、Chopinの4人の著名な作曲家による、人間によって検証された小さなデータセットに、それを微調整します。
- 参考スコア(独自算出の注目度): 4.7205815347741185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite progress in controllable symbolic music generation, data scarcity remains a challenge for certain control modalities. Composer-style music generation is a prime example, as only a few pieces per composer are available, limiting the modeling of both styles and fundamental music elements (e.g., melody, chord, rhythm). In this paper, we investigate how general music knowledge learned from a broad corpus can enhance the mastery of specific composer styles, with a focus on piano piece generation. Our approach follows a two-stage training paradigm. First, we pre-train a REMI-based music generation model on a large corpus of pop, folk, and classical music. Then, we fine-tune it on a small, human-verified dataset from four renowned composers, namely Bach, Mozart, Beethoven, and Chopin, using a lightweight adapter module to condition the model on style indicators. To evaluate the effectiveness of our approach, we conduct both objective and subjective evaluations on style accuracy and musicality. Experimental results demonstrate that our method outperforms ablations and baselines, achieving more precise composer-style modeling and better musical aesthetics. Additionally, we provide observations on how the model builds music concepts from the generality pre-training and refines its stylistic understanding through the mastery fine-tuning.
- Abstract(参考訳): コントロール可能なシンボリック・ミュージック・ジェネレーションの進歩にもかかわらず、データ不足は特定のコントロール・モダリティの課題である。
作曲家スタイルの音楽生成は、作曲者1人あたり数曲しか使用できないため、基本的な音楽要素(例えば、メロディ、和音、リズム)のモデリングを制限している。
本稿では,広義のコーパスから学んだ一般的な音楽知識が,ピアノの楽曲生成に焦点をあてて,特定の作曲スタイルの習得をいかに向上させるかを検討する。
このアプローチは2段階のトレーニングパラダイムに従っています。
まず、ポップ、フォーク、クラシック音楽の大規模なコーパス上で、REMIベースの音楽生成モデルを事前訓練する。
次に、Bach、Mozart、Beethoven、Chopinの4人の著名な作曲家から、軽量なアダプターモジュールを使用して、そのモデルをスタイルインジケータに設定する、小さな人間認証データセットに、それを微調整する。
提案手法の有効性を評価するため,客観評価と主観評価を両立させた。
実験により,本手法はより精密な作曲家スタイルのモデリングとより良い音楽美学を達成し,その効果を実証した。
さらに、モデルが一般性事前学習からどのように音楽概念を構築するのかを観察し、熟達した微調整を通してそのスタイル的理解を洗練させる。
関連論文リスト
- Universal Music Representations? Evaluating Foundation Models on World Music Corpora [65.72891334156706]
ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。
本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2025-06-20T15:06:44Z) - ImprovNet -- Generating Controllable Musical Improvisations with Iterative Corruption Refinement [6.873190001575463]
ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。
ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
論文 参考訳(メタデータ) (2025-02-06T21:45:38Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - Dual-track Music Generation using Deep Learning [1.0312968200748118]
左利きと右利きのピアノ音楽の相互依存性をモデル化可能な,クラシックピアノ音楽を生成するための新しいデュアルトラックアーキテクチャを提案する。
評価手法として,MuseGANプロジェクトと真の音楽を比較した。
論文 参考訳(メタデータ) (2020-05-09T02:34:39Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。