論文の概要: Scaling Self-Supervised Representation Learning for Symbolic Piano Performance
- arxiv url: http://arxiv.org/abs/2506.23869v1
- Date: Mon, 30 Jun 2025 14:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.091233
- Title: Scaling Self-Supervised Representation Learning for Symbolic Piano Performance
- Title(参考訳): シンボリックピアノ演奏のための自己教師付き表現学習のスケーリング
- Authors: Louis Bradshaw, Honglu Fan, Alexander Spangher, Stella Biderman, Simon Colton,
- Abstract要約: 本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
- 参考スコア(独自算出の注目度): 52.661197827466886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the capabilities of generative autoregressive transformer models trained on large amounts of symbolic solo-piano transcriptions. After first pretraining on approximately 60,000 hours of music, we use a comparatively smaller, high-quality subset, to finetune models to produce musical continuations, perform symbolic classification tasks, and produce general-purpose contrastive MIDI embeddings by adapting the SimCLR framework to symbolic music. When evaluating piano continuation coherence, our generative model outperforms leading symbolic generation techniques and remains competitive with proprietary audio generation models. On MIR classification benchmarks, frozen representations from our contrastive model achieve state-of-the-art results in linear probe experiments, while direct finetuning demonstrates the generalizability of pretrained representations, often requiring only a few hundred labeled examples to specialize to downstream tasks.
- Abstract(参考訳): 本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
約6万時間に及ぶ音楽の事前学習の後、我々は比較的小さく高品質なサブセットを使用して、楽曲の継続、シンボリックな分類タスクの実行、シンボリックな音楽にSimCLRフレームワークを適用することで汎用的なコントラストMIDI埋め込みを生成する。
ピアノ継続コヒーレンスを評価する場合, 生成モデルは主要な記号生成技術より優れ, プロプライエタリな音声生成モデルと競合し続けている。
MIR分類ベンチマークでは、線形プローブ実験において、比較モデルからの凍結表現は最先端の結果を得る一方、直接微調整は事前訓練された表現の一般化可能性を示し、ダウンストリームタスクに特化するための数百のラベル付き例しか必要としない。
関連論文リスト
- MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization [24.991558192161]
音楽理解のための自己教師付き音楽表現学習モデルを提案する。
MuQはMel Residual Vector Quantization(Mel-RVQ)によって生成されるトークンを予測するために訓練される
様々なダウンストリームタスクの実験では、MuQが以前の自己教師付き音楽表現モデルより優れていたことが示されている。
論文 参考訳(メタデータ) (2025-01-02T07:08:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Generative Modelling for Controllable Audio Synthesis of Expressive
Piano Performance [6.531546527140474]
ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザー
そこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-06-16T12:54:41Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。