論文の概要: Moonbeam: A MIDI Foundation Model Using Both Absolute and Relative Music Attributes
- arxiv url: http://arxiv.org/abs/2505.15559v1
- Date: Wed, 21 May 2025 14:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.690297
- Title: Moonbeam: A MIDI Foundation Model Using Both Absolute and Relative Music Attributes
- Title(参考訳): Moonbeam:MIDIファンデーションモデル
- Authors: Zixun Guo, Simon Dixon,
- Abstract要約: Moonbeamは、シンボリック音楽のためのトランスフォーマーベースの基礎モデルである。
大量のMIDIデータを事前訓練し、合計81.6K時間の音楽と18億のトークンを収集する。
コードをオープンソース化し、事前訓練されたモデルを作成し、Githubでサンプルを生成しました。
- 参考スコア(独自算出の注目度): 9.283206048560322
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Moonbeam is a transformer-based foundation model for symbolic music, pretrained on a large and diverse collection of MIDI data totaling 81.6K hours of music and 18 billion tokens. Moonbeam incorporates music-domain inductive biases by capturing both absolute and relative musical attributes through the introduction of a novel domain-knowledge-inspired tokenization method and Multidimensional Relative Attention (MRA), which captures relative music information without additional trainable parameters. Leveraging the pretrained Moonbeam, we propose 2 finetuning architectures with full anticipatory capabilities, targeting 2 categories of downstream tasks: symbolic music understanding and conditional music generation (including music infilling). Our model outperforms other large-scale pretrained music models in most cases in terms of accuracy and F1 score across 3 downstream music classification tasks on 4 datasets. Moreover, our finetuned conditional music generation model outperforms a strong transformer baseline with a REMI-like tokenizer. We open-source the code, pretrained model, and generated samples on Github.
- Abstract(参考訳): Moonbeamは、シンボリックミュージックのためのトランスフォーマーベースの基礎モデルで、MIDIデータの大規模かつ多様なコレクションに基づいて、合計81.6K時間の音楽と18億のトークンを事前訓練している。
Moonbeamは、新しいドメイン知識にインスパイアされたトークン化法とMultidimensional Relative Attention (MRA)を導入することで、絶対的および相対的な音楽属性をキャプチャすることで、音楽ドメインの帰納バイアスを取り入れている。
事前学習したMoonbeamを応用して,記号的音楽理解と条件付き音楽生成(音楽の補充を含む)という,下流作業の2つのカテゴリを対象として,完全な予測能力を備えた2つの微調整アーキテクチャを提案する。
我々のモデルは,4つのデータセット上の3つの下流音楽分類タスクの精度とF1スコアにおいて,他の大規模事前学習音楽モデルよりも優れている。
さらに,我々の微調整条件付き音楽生成モデルは,REMIライクなトークンを用いた強力なトランスフォーマーベースラインよりも優れる。
コードをオープンソース化し、事前訓練されたモデルを作成し、Githubでサンプルを生成しました。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。