論文の概要: Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training
- arxiv url: http://arxiv.org/abs/2407.08306v2
- Date: Wed, 15 Jan 2025 10:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 19:30:35.340096
- Title: Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training
- Title(参考訳): 大規模対人事前学習に基づくシンボリック音楽理解モデル
- Authors: Zijian Zhao,
- Abstract要約: マスク言語モデル(MLM)は、自然言語処理(NLP)における人種差別差別のようなバイアス問題を導入するかもしれない
本稿では,ランダムマスキングではなく,マスカネットワークを介してマスクすべきものを適応的に決定する,SMU用Adversarial-MidiBERTを提案する。
提案手法は4つのSMUタスクにまたがって評価し,全てのケースにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.61072980439312
- License:
- Abstract: As a crucial aspect of Music Information Retrieval (MIR), Symbolic Music Understanding (SMU) has garnered significant attention for its potential to assist both musicians and enthusiasts in learning and creating music. Recently, pre-trained language models have been widely adopted in SMU due to the substantial similarities between symbolic music and natural language, as well as the ability of these models to leverage limited music data effectively. However, some studies have shown the common pre-trained methods like Mask Language Model (MLM) may introduce bias issues like racism discrimination in Natural Language Process (NLP) and affects the performance of downstream tasks, which also happens in SMU. This bias often arises when masked tokens cannot be inferred from their context, forcing the model to overfit the training set instead of generalizing. To address this challenge, we propose Adversarial-MidiBERT for SMU, which adaptively determines what to mask during MLM via a masker network, rather than employing random masking. By avoiding the masking of tokens that are difficult to infer from context, our model is better equipped to capture contextual structures and relationships, rather than merely conforming to the training data distribution. We evaluate our method across four SMU tasks, and our approach demonstrates excellent performance in all cases. The code for our model is publicly available at https://github.com/RS2002/Adversarial-MidiBERT.
- Abstract(参考訳): 音楽情報検索 (MIR) の重要な側面として、シンボリック・ミュージック・理解 (SMU) は音楽の学習と創造においてミュージシャンと愛好家の両方を支援する可能性において大きな注目を集めている。
近年、シンボリック・ミュージックと自然言語の相当な類似性から、SMUにおいて事前学習言語モデルが広く採用されている。
しかし、マスク言語モデル(MLM)のような事前訓練された一般的な手法は、自然言語処理(NLP)における人種差別差別のようなバイアス問題を導入し、下流タスクのパフォーマンスに影響を及ぼす可能性がある。
このバイアスはしばしば、マスクされたトークンがコンテキストから推測できない場合に生じ、モデルを一般化する代わりにトレーニングセットに過度に適合させる。
この課題に対処するため,SMUのAdversarial-MidiBERTを提案する。
文脈から推測し難いトークンのマスキングを避けることで、トレーニングデータ分布にのみ準拠するのではなく、文脈構造や関係を捉えることができる。
提案手法は4つのSMUタスクにまたがって評価し,全てのケースにおいて優れた性能を示す。
私たちのモデルのコードはhttps://github.com/RS2002/Adversarial-MidiBERT.comで公開されています。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。