Fugu-MT 論文翻訳(概要): Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training

論文の概要: Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training

arxiv url: http://arxiv.org/abs/2407.08306v2
Date: Wed, 15 Jan 2025 10:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.090396
Title: Let Network Decide What to Learn: Symbolic Music Understanding Model Based on Large-scale Adversarial Pre-training
Title（参考訳）: 大規模対人事前学習に基づくシンボリック音楽理解モデル
Authors: Zijian Zhao,
Abstract要約: マスク言語モデル(MLM)は、自然言語処理(NLP)における人種差別差別のようなバイアス問題を導入するかもしれない本稿では,ランダムマスキングではなく,マスカネットワークを介してマスクすべきものを適応的に決定する,SMU用Adversarial-MidiBERTを提案する。提案手法は4つのSMUタスクにまたがって評価し,全てのケースにおいて優れた性能を示す。
参考スコア（独自算出の注目度）: 2.61072980439312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a crucial aspect of Music Information Retrieval (MIR), Symbolic Music Understanding (SMU) has garnered significant attention for its potential to assist both musicians and enthusiasts in learning and creating music. Recently, pre-trained language models have been widely adopted in SMU due to the substantial similarities between symbolic music and natural language, as well as the ability of these models to leverage limited music data effectively. However, some studies have shown the common pre-trained methods like Mask Language Model (MLM) may introduce bias issues like racism discrimination in Natural Language Process (NLP) and affects the performance of downstream tasks, which also happens in SMU. This bias often arises when masked tokens cannot be inferred from their context, forcing the model to overfit the training set instead of generalizing. To address this challenge, we propose Adversarial-MidiBERT for SMU, which adaptively determines what to mask during MLM via a masker network, rather than employing random masking. By avoiding the masking of tokens that are difficult to infer from context, our model is better equipped to capture contextual structures and relationships, rather than merely conforming to the training data distribution. We evaluate our method across four SMU tasks, and our approach demonstrates excellent performance in all cases. The code for our model is publicly available at https://github.com/RS2002/Adversarial-MidiBERT.
Abstract（参考訳）: 音楽情報検索 (MIR) の重要な側面として、シンボリック・ミュージック・理解 (SMU) は音楽の学習と創造においてミュージシャンと愛好家の両方を支援する可能性において大きな注目を集めている。近年、シンボリック・ミュージックと自然言語の相当な類似性から、SMUにおいて事前学習言語モデルが広く採用されている。しかし、マスク言語モデル(MLM)のような事前訓練された一般的な手法は、自然言語処理(NLP)における人種差別差別のようなバイアス問題を導入し、下流タスクのパフォーマンスに影響を及ぼす可能性がある。このバイアスはしばしば、マスクされたトークンがコンテキストから推測できない場合に生じ、モデルを一般化する代わりにトレーニングセットに過度に適合させる。この課題に対処するため,SMUのAdversarial-MidiBERTを提案する。文脈から推測し難いトークンのマスキングを避けることで、トレーニングデータ分布にのみ準拠するのではなく、文脈構造や関係を捉えることができる。提案手法は4つのSMUタスクにまたがって評価し,全てのケースにおいて優れた性能を示す。私たちのモデルのコードはhttps://github.com/RS2002/Adversarial-MidiBERT.comで公開されています。

関連論文リスト

Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文参考訳（メタデータ） (2024-08-26T15:13:14Z)
Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文参考訳（メタデータ） (2024-08-01T11:23:42Z)
An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文参考訳（メタデータ） (2024-04-14T07:56:08Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文参考訳（メタデータ） (2023-12-21T10:27:52Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文参考訳（メタデータ） (2023-05-25T15:31:02Z)
Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。 SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文参考訳（メタデータ） (2023-05-24T16:00:54Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Supervised and Unsupervised Learning of Audio Representations for Music Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2022-10-07T20:07:35Z)
Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。 PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文参考訳（メタデータ） (2022-08-23T08:27:52Z)
Contrastive Learning with Positive-Negative Frame Mask for Music Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文参考訳（メタデータ） (2022-03-17T07:11:42Z)
Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文参考訳（メタデータ） (2021-12-08T10:30:52Z)
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文参考訳（メタデータ） (2021-06-10T10:13:05Z)
Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。 CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文参考訳（メタデータ） (2021-03-17T02:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。