論文の概要: An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging
- arxiv url: http://arxiv.org/abs/2404.09177v1
- Date: Sun, 14 Apr 2024 07:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 15:07:53.726571
- Title: An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging
- Title(参考訳): 音楽タギングのための多視点セルフ教師方式の実験的検討
- Authors: Gabriel Meseguer-Brocal, Dorian Desblancs, Romain Hennequin,
- Abstract要約: 自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
- 参考スコア(独自算出の注目度): 6.363158395541767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has emerged as a powerful way to pre-train generalizable machine learning models on large amounts of unlabeled data. It is particularly compelling in the music domain, where obtaining labeled data is time-consuming, error-prone, and ambiguous. During the self-supervised process, models are trained on pretext tasks, with the primary objective of acquiring robust and informative features that can later be fine-tuned for specific downstream tasks. The choice of the pretext task is critical as it guides the model to shape the feature space with meaningful constraints for information encoding. In the context of music, most works have relied on contrastive learning or masking techniques. In this study, we expand the scope of pretext tasks applied to music by investigating and comparing the performance of new self-supervised methods for music tagging. We open-source a simple ResNet model trained on a diverse catalog of millions of tracks. Our results demonstrate that, although most of these pre-training methods result in similar downstream results, contrastive learning consistently results in better downstream performance compared to other self-supervised pre-training methods. This holds true in a limited-data downstream context.
- Abstract(参考訳): 自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
特に音楽分野では、ラベル付きデータを取得するのに時間がかかり、エラーが発生し、曖昧である。
自己監督プロセスの間、モデルはプレテキストタスクに基づいて訓練され、主要な目的は、後で特定の下流タスクのために微調整できる堅牢で情報的な機能を取得することである。
プリテキストタスクの選択は、情報エンコーディングに意味のある制約で特徴空間を形作るようモデルに誘導するため、非常に重要である。
音楽の文脈では、ほとんどの作品は対照的な学習やマスキング技術に依存している。
本研究では,音楽タギングのための新たな自己教師型手法の性能を調査・比較することにより,音楽に適用される前提課題の範囲を広げる。
我々は、数百万トラックの多様なカタログに基づいてトレーニングされたシンプルなResNetモデルをオープンソースにしました。
以上の結果から,これらの事前学習手法は,ほぼ同様のダウンストリーム結果をもたらすが,コントラスト学習は,他の自己指導型事前学習手法と比較して連続的にダウンストリーム性能が向上することが示された。
これは、限られたデータダウンストリームのコンテキストで当てはまる。
関連論文リスト
- Music auto-tagging in the long tail: A few-shot approach [45.873301228345696]
マルチラベル音楽の自動タグ付けに少数ショット学習手法を統合することを提案する。
実験により,事前学習した特徴を持つ簡易モデルにより,最先端モデルに近い性能が得られることを示した。
論文 参考訳(メタデータ) (2024-09-12T03:33:19Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Multi-Task Self-Supervised Pre-Training for Music Classification [36.21650132145048]
音楽エンコーダの事前学習に自己教師付きマルチタスク学習法を適用した。
本研究では、これらの設計選択が、下流の音楽分類タスクとどのように相互作用するかを検討する。
論文 参考訳(メタデータ) (2021-02-05T15:19:58Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。