論文の概要: MidiBERT-Piano: Large-scale Pre-training for Symbolic Music
Understanding
- arxiv url: http://arxiv.org/abs/2107.05223v1
- Date: Mon, 12 Jul 2021 07:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:38:24.117249
- Title: MidiBERT-Piano: Large-scale Pre-training for Symbolic Music
Understanding
- Title(参考訳): MidiBERT-Piano:シンボリック音楽理解のための大規模事前学習
- Authors: Yi-Hui Chou, I-Chun Chen, Chin-Jui Chang, Joann Ching, and Yi-Hsuan
Yang
- Abstract要約: 我々は、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイルの12層トランスフォーマーモデルを事前訓練する。
トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 24.041237939453065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an attempt to employ the mask language modeling approach
of BERT to pre-train a 12-layer Transformer model over 4,166 pieces of
polyphonic piano MIDI files for tackling a number of symbolic-domain
discriminative music understanding tasks. These include two note-level
classification tasks, i.e., melody extraction and velocity prediction, as well
as two sequence-level classification tasks, i.e., composer classification and
emotion classification. We find that, given a pre-trained Transformer, our
models outperform recurrent neural network based baselines with less than 10
epochs of fine-tuning. Ablation studies show that the pre-training remains
effective even if none of the MIDI data of the downstream tasks are seen at the
pre-training stage, and that freezing the self-attention layers of the
Transformer at the fine-tuning stage slightly degrades performance. All the
five datasets employed in this work are publicly available, as well as
checkpoints of our pre-trained and fine-tuned models. As such, our research can
be taken as a benchmark for symbolic-domain music understanding.
- Abstract(参考訳): 本稿では、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイル上で12層トランスフォーマーモデルを事前訓練し、多くの記号領域識別音楽理解タスクに取り組む。
これには、2つの音階分類タスク、すなわちメロディ抽出と速度予測、および2つのシーケンスレベル分類タスク、すなわち作曲家分類と感情分類が含まれる。
トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。
アブレーション研究では, 下流タスクのMIDIデータが事前学習段階で見られなくても, 事前学習が有効であり, 微調整段階でトランスフォーマーの自己保持層を凍結しても性能はわずかに低下することが示された。
この作業で使用されている5つのデータセットはすべて、トレーニング済みおよび微調整済みモデルのチェックポイントとして公開されています。
したがって,本研究は記号領域音楽理解のベンチマークとして捉えることができる。
関連論文リスト
- End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Large-Scale MIDI-based Composer Classification [13.815200249190529]
広義MIDIピアノを用いたMIDIに基づく大規模楽曲分類システムを提案する。
我々は、最大100人の作曲家による作曲家の分類問題を調査した最初の人物である。
本システムでは,0.648と0.385の10コンポーザと100コンポーザの分類精度を実現する。
論文 参考訳(メタデータ) (2020-10-28T08:07:55Z) - A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation [0.0]
本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。
実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
論文 参考訳(メタデータ) (2020-10-15T13:59:58Z) - Deep Composer Classification Using Symbolic Representation [6.656753488329095]
本研究では,シンボリックドメイン上で作曲家を分類するために,ディープニューラルネットワークを訓練する。
このモデルでは、2チャンネルの2次元入力をMIDIレコードから変換し、シングルラベルの分類を行う。
MAESTROデータセットで行った実験では、13種類の作曲家を分類するためにF1値0.8333を報告した。
論文 参考訳(メタデータ) (2020-10-02T07:40:44Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Composer Style Classification of Piano Sheet Music Images Using Language
Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。
提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。
IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文 参考訳(メタデータ) (2020-07-29T04:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。