論文の概要: Contrastive Learning of Musical Representations
- arxiv url: http://arxiv.org/abs/2103.09410v1
- Date: Wed, 17 Mar 2021 02:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 12:51:25.378142
- Title: Contrastive Learning of Musical Representations
- Title(参考訳): 音楽表現のコントラスト学習
- Authors: Janne Spijkervet, John Ashley Burgoyne
- Abstract要約: SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While supervised learning has enabled great advances in many areas of music,
labeled music datasets remain especially hard, expensive and time-consuming to
create. In this work, we introduce SimCLR to the music domain and contribute a
large chain of audio data augmentations, to form a simple framework for
self-supervised learning of raw waveforms of music: CLMR. This approach
requires no manual labeling and no preprocessing of music to learn useful
representations. We evaluate CLMR in the downstream task of music
classification on the MagnaTagATune and Million Song datasets. A linear
classifier fine-tuned on representations from a pre-trained CLMR model achieves
an average precision of 35.4% on the MagnaTagATune dataset, superseding fully
supervised models that currently achieve a score of 34.9%. Moreover, we show
that CLMR's representations are transferable using out-of-domain datasets,
indicating that they capture important musical knowledge. Lastly, we show that
self-supervised pre-training allows us to learn efficiently on smaller labeled
datasets: we still achieve a score of 33.1% despite using only 259 labeled
songs during fine-tuning. To foster reproducibility and future research on
self-supervised learning in music, we publicly release the pre-trained models
and the source code of all experiments of this paper on GitHub.
- Abstract(参考訳): 教師付き学習は音楽の多くの分野で大きな進歩をもたらしたが、ラベル付き音楽データセットは特に困難で高価で時間を要する。
本研究では,音楽分野にSimCLRを導入し,音楽の生波形の自己教師型学習のための簡単なフレームワークであるCLMRを構築した。
このアプローチでは、手作業によるラベリングや、有用な表現を学ぶための音楽の前処理は不要である。
MagnaTagATune と Million Song のデータセットを用いて,音楽分類の下流課題における CLMR の評価を行った。
事前訓練されたCLMRモデルからの表現に基づいて微調整された線形分類器は、MagnaTagATuneデータセットの平均精度35.4%を達成する。
さらに,clmrの表現はドメイン外データセットを用いて転送可能であり,重要な音楽知識を捉えていることを示す。
最後に、自己教師付き事前学習によって、より小さなラベル付きデータセットで効率的に学習できることを示し、微調整中に259曲しか使用していないにもかかわらず、スコアは33.1%に達した。
音楽における自己教師付き学習の再現可能性と今後の研究を促進するため,本論文のすべての実験のソースコードをgithubに公開する。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [73.47607237309258]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。