論文の概要: Supervised and Unsupervised Learning of Audio Representations for Music
Understanding
- arxiv url: http://arxiv.org/abs/2210.03799v1
- Date: Fri, 7 Oct 2022 20:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:17:46.844116
- Title: Supervised and Unsupervised Learning of Audio Representations for Music
Understanding
- Title(参考訳): 音楽理解のための音声表現の教師なし学習
- Authors: Matthew C. McCallum, Filip Korzeniowski, Sergio Oramas, Fabien Gouyon,
Andreas F. Ehmann
- Abstract要約: トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 9.239657838690226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we provide a broad comparative analysis of strategies for
pre-training audio understanding models for several tasks in the music domain,
including labelling of genre, era, origin, mood, instrumentation, key, pitch,
vocal characteristics, tempo and sonority. Specifically, we explore how the
domain of pre-training datasets (music or generic audio) and the pre-training
methodology (supervised or unsupervised) affects the adequacy of the resulting
audio embeddings for downstream tasks.
We show that models trained via supervised learning on large-scale
expert-annotated music datasets achieve state-of-the-art performance in a wide
range of music labelling tasks, each with novel content and vocabularies. This
can be done in an efficient manner with models containing less than 100 million
parameters that require no fine-tuning or reparameterization for downstream
tasks, making this approach practical for industry-scale audio catalogs.
Within the class of unsupervised learning strategies, we show that the domain
of the training dataset can significantly impact the performance of
representations learned by the model. We find that restricting the domain of
the pre-training dataset to music allows for training with smaller batch sizes
while achieving state-of-the-art in unsupervised learning -- and in some cases,
supervised learning -- for music understanding.
We also corroborate that, while achieving state-of-the-art performance on
many tasks, supervised learning can cause models to specialize to the
supervised information provided, somewhat compromising a model's generality.
- Abstract(参考訳): 本研究では,ジャンル,時代,起源,気分,楽器,キー,ピッチ,発声特性,テンポ,ソノリティのラベル付けなど,音楽領域における複数のタスクを対象とした音声理解モデルの事前学習戦略について,幅広い比較分析を行った。
具体的には、事前学習データセット(音楽またはジェネリックオーディオ)と事前学習方法論(教師なしまたは教師なし)のドメインが、下流タスクのオーディオ埋め込みの精度にどのように影響するかを検討する。
本研究では,教師付き学習により学習したモデルが,新たなコンテンツや語彙を伴って,幅広い音楽ラベリングタスクにおいて最先端の演奏を実現することを示す。
これは、下流タスクの微調整や再パラメータ化を必要としない1億未満のパラメータを含むモデルで効率的に行うことができ、これは産業規模のオーディオカタログに実用的である。
教師なし学習戦略のクラスでは、トレーニングデータセットの領域がモデルによって学習された表現のパフォーマンスに大きな影響を及ぼすことを示す。
事前学習データセットのドメインを音楽に制限することで、より小さなバッチサイズでトレーニングできると同時に、教師なし学習 -- 場合によっては教師なし学習 -- を音楽理解のために達成できることがわかった。
また、多くのタスクにおいて最先端のパフォーマンスを達成する一方で、教師付き学習はモデルが提供した教師付き情報に特化させ、モデルの一般化をやや複雑にする可能性があることを裏付ける。
関連論文リスト
- Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging [6.363158395541767]
自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。
本研究では,音楽タギングのための新たな自己指導手法の性能について検討し,比較する。
論文 参考訳(メタデータ) (2024-04-14T07:56:08Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Instrument Classification Reprogrammed [79.68916470119743]
プログラム」とは、事前学習されたモデルの入力と出力の両方を修正・マッピングすることで、もともと異なるタスクをターゲットにした、事前学習された深層・複雑なニューラルネットワークを利用する手法である。
本研究では,異なるタスクで学習した表現のパワーを効果的に活用できることを実証し,結果として得られた再プログラムシステムは,訓練パラメータのごく一部で,同等あるいはそれ以上の性能を持つシステムでも実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-11-15T18:26:01Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Multi-Task Self-Supervised Pre-Training for Music Classification [36.21650132145048]
音楽エンコーダの事前学習に自己教師付きマルチタスク学習法を適用した。
本研究では、これらの設計選択が、下流の音楽分類タスクとどのように相互作用するかを検討する。
論文 参考訳(メタデータ) (2021-02-05T15:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。