論文の概要: Learning Music Audio Representations With Limited Data
- arxiv url: http://arxiv.org/abs/2505.06042v1
- Date: Fri, 09 May 2025 13:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.276659
- Title: Learning Music Audio Representations With Limited Data
- Title(参考訳): 限定データによる音楽音響表現の学習
- Authors: Christos Plachouras, Emmanouil Benetos, Johan Pauwels,
- Abstract要約: 限定データ学習体制下での複数の音楽音響表現モデルの挙動について検討する。
さまざまなアーキテクチャ、トレーニングパラダイム、入力期間を持つ音楽モデルを検討し、5~8000分に及ぶデータ収集をトレーニングする。
様々な音楽情報検索タスクにおける学習表現を評価し,その雑音に対する頑健さを解析する。
- 参考スコア(独自算出の注目度): 10.843118411238034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large deep-learning models for music, including those focused on learning general-purpose music audio representations, are often assumed to require substantial training data to achieve high performance. If true, this would pose challenges in scenarios where audio data or annotations are scarce, such as for underrepresented music traditions, non-popular genres, and personalized music creation and listening. Understanding how these models behave in limited-data scenarios could be crucial for developing techniques to tackle them. In this work, we investigate the behavior of several music audio representation models under limited-data learning regimes. We consider music models with various architectures, training paradigms, and input durations, and train them on data collections ranging from 5 to 8,000 minutes long. We evaluate the learned representations on various music information retrieval tasks and analyze their robustness to noise. We show that, under certain conditions, representations from limited-data and even random models perform comparably to ones from large-dataset models, though handcrafted features outperform all learned representations in some tasks.
- Abstract(参考訳): 汎用的な音楽の音響表現を学習するなど、音楽のための大規模なディープラーニングモデルはしばしば、高いパフォーマンスを達成するためにかなりのトレーニングデータを必要とすると仮定される。
もしこれが本当なら、オーディオデータやアノテーションが不足しているシナリオ、例えば、過度に表現されていない音楽の伝統、人気のないジャンル、パーソナライズされた音楽の作成と聴取などにおいて、これは課題となるだろう。
これらのモデルが限られたデータシナリオでどのように振る舞うかを理解することは、それに取り組む技術を開発する上で非常に重要です。
本研究では,限定データ学習体制下での複数の音楽音響表現モデルの振舞いについて検討する。
さまざまなアーキテクチャ、トレーニングパラダイム、入力期間を持つ音楽モデルを検討し、5~8000分に及ぶデータ収集をトレーニングする。
様々な音楽情報検索タスクにおける学習表現を評価し,その雑音に対する頑健さを解析する。
特定の条件下では、限定データおよびランダムモデルからの表現は、大規模データセットモデルからの表現と相容れない性能を示すが、手作業による特徴は、あるタスクにおいて学習された表現よりも優れる。
関連論文リスト
- Learning Musical Representations for Music Performance Question Answering [10.912207282129753]
マルチモーダル学習法は音楽演奏の基本的問題に対処できない。
私たちのメインのバックボーンは、音楽データのコンテキストにマルチモーダルインタラクションを組み込むように設計されています。
本実験は,音楽AVQAデータセットに対する最先端効果を示す。
論文 参考訳(メタデータ) (2025-02-10T17:41:57Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。