論文の概要: MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training
- arxiv url: http://arxiv.org/abs/2106.05630v1
- Date: Thu, 10 Jun 2021 10:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:09:04.551072
- Title: MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training
- Title(参考訳): MusicBERT: 大規模事前学習によるシンボリック音楽理解
- Authors: Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie-Yan Liu
- Abstract要約: シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
- 参考スコア(独自算出の注目度): 97.91071692716406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic music understanding, which refers to the understanding of music from
the symbolic data (e.g., MIDI format, but not audio), covers many music
applications such as genre classification, emotion classification, and music
pieces matching. While good music representations are beneficial for these
applications, the lack of training data hinders representation learning.
Inspired by the success of pre-training models in natural language processing,
in this paper, we develop MusicBERT, a large-scale pre-trained model for music
understanding. To this end, we construct a large-scale symbolic music corpus
that contains more than 1 million music songs. Since symbolic music contains
more structural (e.g., bar, position) and diverse information (e.g., tempo,
instrument, and pitch), simply adopting the pre-training techniques from NLP to
symbolic music only brings marginal gains. Therefore, we design several
mechanisms, including OctupleMIDI encoding and bar-level masking strategy, to
enhance pre-training with symbolic music data. Experiments demonstrate the
advantages of MusicBERT on four music understanding tasks, including melody
completion, accompaniment suggestion, genre classification, and style
classification. Ablation studies also verify the effectiveness of our designs
of OctupleMIDI encoding and bar-level masking strategy in MusicBERT.
- Abstract(参考訳): シンボリック音楽理解 (symbolic music understanding) は、シンボリックデータ(例えばmidi形式だがオーディオではない)からの音楽の理解を指す用語であり、ジャンル分類、感情分類、楽曲マッチングなど多くの音楽応用をカバーしている。
これらの応用には良い音楽表現が有用であるが、トレーニングデータの欠如は表現学習を妨げる。
本稿では,自然言語処理における事前学習モデルの成功に触発されて,音楽理解のための大規模事前学習モデル musicbert を開発した。
この目的のために,100万曲以上の楽曲を含む大規模なシンボリック音楽コーパスを構築する。
シンボリック・ミュージックは、より構造的な(例えば、バー、位置)と多様な情報(例えば、テンポ、楽器、ピッチ)を含んでいるため、単にNLPからシンボリック・ミュージックへの事前学習技術を採用するだけで、限界利得しか得られない。
そこで我々は,OctupleMIDIエンコーディングやバーレベルのマスキング戦略を含むいくつかのメカニズムを設計し,シンボル音楽データによる事前学習を強化する。
実験は、メロディ補完、伴奏提案、ジャンル分類、スタイル分類を含む4つの音楽理解タスクにおけるMusicBERTの利点を示す。
また,MusicBERTにおけるOctupleMIDI符号化とバーレベルのマスキング戦略の有効性についても検討した。
関連論文リスト
- MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERT [44.204383306879095]
シンボリック・マルチトラック音楽生成に特化して設計された新しいシンボリック・ミュージック表現とジェネレーティブ・アディバーショナル・ネットワーク(GAN)フレームワークを提案する。
頑健なマルチトラック・ミュージック・ジェネレータを構築するため,事前学習したMusicBERTモデルを微調整して判別器として機能し,相対論的標準損失を取り入れた。
論文 参考訳(メタデータ) (2024-09-02T03:18:56Z) - Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning [2.61072980439312]
変換器によるバイバーサ表現に基づく記号的音楽理解モデルAdrial-MidiBERTを提案する。
逆学習に基づく非バイアス付き事前学習手法を導入し、トレーニング中にバイアスにつながるトークンの参加を最小限に抑えるとともに、事前学習と微調整のデータギャップを狭めるマスクファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T08:54:38Z) - PianoBART: Symbolic Piano Music Generation and Understanding with Large-Scale Pre-Training [8.484581633133542]
PianoBARTは、BARTを象徴的なピアノ音楽の生成と理解の両方に使用する事前訓練されたモデルである。
我々は,PanoBARTの事前学習タスクに対して,情報漏洩や損失を防止できる多レベルオブジェクト選択戦略を考案した。
実験により、ピアノBARTは効率よく音楽パターンを学習し、高品質なコヒーレントな作品を生成する際、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-26T03:35:54Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - Music Embedding: A Tool for Incorporating Music Theory into
Computational Music Applications [0.3553493344868413]
音楽理論と簡潔な方法で音楽をデジタル的に表現することが重要である。
音楽理論の活用の観点からは、既存の音楽表現のアプローチは効果がない。
論文 参考訳(メタデータ) (2021-04-24T04:32:45Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。