論文の概要: MidiBERT-Piano: Large-scale Pre-training for Symbolic Music
Understanding
- arxiv url: http://arxiv.org/abs/2107.05223v1
- Date: Mon, 12 Jul 2021 07:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:38:24.117249
- Title: MidiBERT-Piano: Large-scale Pre-training for Symbolic Music
Understanding
- Title(参考訳): MidiBERT-Piano:シンボリック音楽理解のための大規模事前学習
- Authors: Yi-Hui Chou, I-Chun Chen, Chin-Jui Chang, Joann Ching, and Yi-Hsuan
Yang
- Abstract要約: 我々は、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイルの12層トランスフォーマーモデルを事前訓練する。
トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 24.041237939453065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an attempt to employ the mask language modeling approach
of BERT to pre-train a 12-layer Transformer model over 4,166 pieces of
polyphonic piano MIDI files for tackling a number of symbolic-domain
discriminative music understanding tasks. These include two note-level
classification tasks, i.e., melody extraction and velocity prediction, as well
as two sequence-level classification tasks, i.e., composer classification and
emotion classification. We find that, given a pre-trained Transformer, our
models outperform recurrent neural network based baselines with less than 10
epochs of fine-tuning. Ablation studies show that the pre-training remains
effective even if none of the MIDI data of the downstream tasks are seen at the
pre-training stage, and that freezing the self-attention layers of the
Transformer at the fine-tuning stage slightly degrades performance. All the
five datasets employed in this work are publicly available, as well as
checkpoints of our pre-trained and fine-tuned models. As such, our research can
be taken as a benchmark for symbolic-domain music understanding.
- Abstract(参考訳): 本稿では、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイル上で12層トランスフォーマーモデルを事前訓練し、多くの記号領域識別音楽理解タスクに取り組む。
これには、2つの音階分類タスク、すなわちメロディ抽出と速度予測、および2つのシーケンスレベル分類タスク、すなわち作曲家分類と感情分類が含まれる。
トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。
アブレーション研究では, 下流タスクのMIDIデータが事前学習段階で見られなくても, 事前学習が有効であり, 微調整段階でトランスフォーマーの自己保持層を凍結しても性能はわずかに低下することが示された。
この作業で使用されている5つのデータセットはすべて、トレーニング済みおよび微調整済みモデルのチェックポイントとして公開されています。
したがって,本研究は記号領域音楽理解のベンチマークとして捉えることができる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Learning Hierarchical Metrical Structure Beyond Measures [3.7294116330265394]
階層構造アノテーションは、音楽情報検索とコンピュータ音楽学に役立つ。
スコアから階層的メートル法構造を自動的に抽出するデータ駆動手法を提案する。
提案手法は,異なるオーケストレーション環境下でのルールベースアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-09-21T11:08:52Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文 参考訳(メタデータ) (2020-07-29T04:13:59Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。