Fugu-MT 論文翻訳(概要): MidiBERT-Piano: Large-scale Pre-training for Symbolic Music Understanding

論文の概要: MidiBERT-Piano: Large-scale Pre-training for Symbolic Music Understanding

arxiv url: http://arxiv.org/abs/2107.05223v1
Date: Mon, 12 Jul 2021 07:03:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-13 15:38:24.117249
Title: MidiBERT-Piano: Large-scale Pre-training for Symbolic Music Understanding
Title（参考訳）: MidiBERT-Piano:シンボリック音楽理解のための大規模事前学習
Authors: Yi-Hui Chou, I-Chun Chen, Chin-Jui Chang, Joann Ching, and Yi-Hsuan Yang
Abstract要約: 我々は、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイルの12層トランスフォーマーモデルを事前訓練する。トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。
参考スコア（独自算出の注目度）: 24.041237939453065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents an attempt to employ the mask language modeling approach of BERT to pre-train a 12-layer Transformer model over 4,166 pieces of polyphonic piano MIDI files for tackling a number of symbolic-domain discriminative music understanding tasks. These include two note-level classification tasks, i.e., melody extraction and velocity prediction, as well as two sequence-level classification tasks, i.e., composer classification and emotion classification. We find that, given a pre-trained Transformer, our models outperform recurrent neural network based baselines with less than 10 epochs of fine-tuning. Ablation studies show that the pre-training remains effective even if none of the MIDI data of the downstream tasks are seen at the pre-training stage, and that freezing the self-attention layers of the Transformer at the fine-tuning stage slightly degrades performance. All the five datasets employed in this work are publicly available, as well as checkpoints of our pre-trained and fine-tuned models. As such, our research can be taken as a benchmark for symbolic-domain music understanding.
Abstract（参考訳）: 本稿では、BERTのマスク言語モデリング手法を用いて、4,166個のポリフォニックピアノMIDIファイル上で12層トランスフォーマーモデルを事前訓練し、多くの記号領域識別音楽理解タスクに取り組む。これには、2つの音階分類タスク、すなわちメロディ抽出と速度予測、および2つのシーケンスレベル分類タスク、すなわち作曲家分類と感情分類が含まれる。トレーニング済みのTransformerを使えば、私たちのモデルは10エポック未満の微調整で、リカレントニューラルネットワークベースのベースラインを上回ります。アブレーション研究では, 下流タスクのMIDIデータが事前学習段階で見られなくても, 事前学習が有効であり, 微調整段階でトランスフォーマーの自己保持層を凍結しても性能はわずかに低下することが示された。この作業で使用されている5つのデータセットはすべて、トレーニング済みおよび微調整済みモデルのチェックポイントとして公開されています。したがって,本研究は記号領域音楽理解のベンチマークとして捉えることができる。

関連論文リスト

MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling [32.78044321881271]
音声合成のためのVALLEフレームワークであるMIDI-VALLEを提案する。 VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。評価の結果,MIDI-VALLEは最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-07-11T12:28:20Z)
Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文参考訳（メタデータ） (2025-06-30T14:00:14Z)
Fine-Tuning MIDI-to-Audio Alignment using a Neural Network on Piano Roll and CQT Representations [2.3249139042158853]
本稿では,人間のピアノ演奏の音声録音と,それに対応するゆるやかなMIDIファイルとを同期させるニューラルネットワーク手法を提案する。提案手法は,業界標準の動的時間ワープ法(DTW)よりも最大20%高いアライメント精度を実現する。
論文参考訳（メタデータ） (2025-06-27T13:59:50Z)
The GigaMIDI Dataset with Features for Expressive Music Performance Detection [5.585625844344932]
GigaMIDIデータセットには、140万以上のユニークなMIDIファイルが含まれており、180億のMIDIノートイベントと530万のMIDIトラックが含まれている。このGigaMIDIのキュレートされたイテレーションは、NOMMLによって検出された、GigaMIDIデータセットの31%を構成する、明示的なパフォーマンスの楽器トラックを含んでいる。
論文参考訳（メタデータ） (2025-02-24T23:39:40Z)
End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文参考訳（メタデータ） (2024-09-30T20:11:37Z)
Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文参考訳（メタデータ） (2024-07-02T08:23:38Z)
Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文参考訳（メタデータ） (2024-01-15T08:41:01Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Large-Scale MIDI-based Composer Classification [13.815200249190529]
広義MIDIピアノを用いたMIDIに基づく大規模楽曲分類システムを提案する。我々は、最大100人の作曲家による作曲家の分類問題を調査した最初の人物である。本システムでは,0.648と0.385の10コンポーザと100コンポーザの分類精度を実現する。
論文参考訳（メタデータ） (2020-10-28T08:07:55Z)
A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation [0.0]
本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
論文参考訳（メタデータ） (2020-10-15T13:59:58Z)
Deep Composer Classification Using Symbolic Representation [6.656753488329095]
本研究では,シンボリックドメイン上で作曲家を分類するために,ディープニューラルネットワークを訓練する。このモデルでは、2チャンネルの2次元入力をMIDIレコードから変換し、シングルラベルの分類を行う。 MAESTROデータセットで行った実験では、13種類の作曲家を分類するためにF1値0.8333を報告した。
論文参考訳（メタデータ） (2020-10-02T07:40:44Z)
PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。 MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文参考訳（メタデータ） (2020-08-18T02:28:36Z)
Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文参考訳（メタデータ） (2020-08-01T07:46:24Z)
Composer Style Classification of Piano Sheet Music Images Using Language Model Pretraining [16.23438816698455]
我々は,その問題を象徴的な音楽形式ではなく,生の楽譜に基づいて再放送する。提案手法はまず,ブートレッグの特徴表現に基づいて,楽譜を一連の「単語」に変換する。 IMSLPのすべてのピアノ楽譜画像に対して,AWD-LSTM,GPT-2,RoBERTa言語モデルを訓練する。
論文参考訳（メタデータ） (2020-07-29T04:13:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。