論文の概要: Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning
- arxiv url: http://arxiv.org/abs/2407.08306v1
- Date: Thu, 11 Jul 2024 08:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:09:27.595746
- Title: Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning
- Title(参考訳): Adversarial-MidiBERT:Unbias事前学習とマスクファインチューニングに基づくシンボリック音楽理解モデル
- Authors: Zijian Zhao,
- Abstract要約: 変換器によるバイバーサ表現に基づく記号的音楽理解モデルAdrial-MidiBERTを提案する。
逆学習に基づく非バイアス付き事前学習手法を導入し、トレーニング中にバイアスにつながるトークンの参加を最小限に抑えるとともに、事前学習と微調整のデータギャップを狭めるマスクファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 2.61072980439312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important part of Music Information Retrieval (MIR), Symbolic Music Understanding (SMU) has gained substantial attention, as it can assist musicians and amateurs in learning and creating music. Recently, pre-trained language models have been widely adopted in SMU because the symbolic music shares a huge similarity with natural language, and the pre-trained manner also helps make full use of limited music data. However, the issue of bias, such as sexism, ageism, and racism, has been observed in pre-trained language models, which is attributed to the imbalanced distribution of training data. It also has a significant influence on the performance of downstream tasks, which also happens in SMU. To address this challenge, we propose Adversarial-MidiBERT, a symbolic music understanding model based on Bidirectional Encoder Representations from Transformers (BERT). We introduce an unbiased pre-training method based on adversarial learning to minimize the participation of tokens that lead to biases during training. Furthermore, we propose a mask fine-tuning method to narrow the data gap between pre-training and fine-tuning, which can help the model converge faster and perform better. We evaluate our method on four music understanding tasks, and our approach demonstrates excellent performance in all of them. The code for our model is publicly available at https://github.com/RS2002/Adversarial-MidiBERT.
- Abstract(参考訳): 音楽情報検索 (MIR) の重要な要素として,音楽の学習・作成において音楽家やアマチュアを支援できるシンボリック音楽理解 (SMU) が注目されている。
近年,SMUでは,記号的音楽が自然言語と非常に類似しているため,事前学習された言語モデルが広く採用されている。
しかし、性差別、年齢主義、人種差別といった偏見の問題は、トレーニングデータの不均衡分布に起因する事前学習言語モデルで観察されている。
また、下流タスクのパフォーマンスにも大きな影響を与えており、これはSMUでも起こっている。
そこで本稿では,変換器からの双方向エンコーダ表現に基づく記号的音楽理解モデルであるAdversarial-MidiBERTを提案する。
対戦学習に基づくバイアスのない事前学習手法を導入し,学習中のバイアスにつながるトークンの参加を最小化する。
さらに,事前学習と微調整の間のデータギャップを狭めるマスクファインチューニング手法を提案する。
本手法は4つの音楽理解課題において評価し,そのすべてにおいて優れた性能を示す。
私たちのモデルのコードはhttps://github.com/RS2002/Adversarial-MidiBERT.comで公開されています。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。