論文の概要: Adopting State-of-the-Art Pretrained Audio Representations for Music Recommender Systems
- arxiv url: http://arxiv.org/abs/2604.23077v1
- Date: Sat, 25 Apr 2026 00:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.141735
- Title: Adopting State-of-the-Art Pretrained Audio Representations for Music Recommender Systems
- Title(参考訳): 音楽レコメンダシステムにおける事前学習音声表現の活用
- Authors: Yan-Martin Tamm, Anna Aljanaki,
- Abstract要約: 音楽情報検索(MIR)研究コミュニティは、大量の音楽データに基づいて事前訓練された様々なモデルをリリースした。
Music FM, Music2Vec, MERT, EncodecMAE, Jukebox, MusiCNN, MULE, MuQ, MuQ-MuLanについて検討した。
事前学習した音声表現は、従来のMIRタスクと、熱い音楽と冷たい音楽のレコメンデーションの間に大きな性能差があることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the years, Music Information Retrieval (MIR) research community has released various models pretrained on large amounts of music data. Transfer learning showcases the proven effectiveness of pretrained backend models for a broad spectrum of downstream tasks, including auto-tagging and genre classification. However, MIR papers generally do not explore the efficiency of pretrained models for Music Recommender Systems (MRS). In addition, the Recommender Systems community tends to favour traditional end-to-end neural network training. Our research addresses this gap and evaluates the performance of nine pretrained backend models (MusicFM, Music2Vec, MERT, EncodecMAE, Jukebox, MusiCNN, MULE, MuQ and MuQ-MuLan) in the context of MRS. We assess them using five recommendation approaches: K-Nearest Neighbours (KNN), Shallow Neural Network, Contrastive Multi-Modal projection, a Hybrid model, and BERT4Rec both for the hot and cold-start scenarios. Our findings suggest that pretrained audio representations exhibit significant performance disparity between traditional MIR tasks and both hot and cold music recommendations, indicating that valuable aspects of musical information captured by backend models may differ depending on the task. This study establishes a foundation for further exploration of pretrained audio representations to enhance music recommendation systems.
- Abstract(参考訳): 長年にわたり、音楽情報検索(MIR)研究コミュニティは、大量の音楽データに基づいて事前訓練された様々なモデルをリリースしてきた。
転送学習は、自動タグ付けやジャンル分類を含む幅広い下流タスクに対して、事前訓練されたバックエンドモデルの実証された効果を示す。
しかし、MIR論文は一般に、音楽レコメンダシステム(MRS)の事前訓練されたモデルの効率を探求していない。
さらに、Recommender Systemsコミュニティは従来のエンドツーエンドのニューラルネットワークトレーニングを好んでいる。
我々は、このギャップに対処し、MRSの文脈における9つの事前訓練されたバックエンドモデル(MusicFM, Music2Vec, MERT, EncodecMAE, Jukebox, MusiCNN, MULE, MuQ, MuQ-MuLan)の性能を評価する。
以上の結果から,事前学習した音声表現は,従来のMIRタスクと,熱い音楽と冷たい音楽のレコメンデーションとの間に大きな差異があることが示唆された。
本研究は,音楽レコメンデーションシステムを強化するために,事前学習した音声表現をさらに探求するための基盤を確立する。
関連論文リスト
- "Beyond the past": Leveraging Audio and Human Memory for Sequential Music Recommendation [6.875744149600454]
音楽ストリーミングサービスでは、リスニングセッションはよく親しみやすい曲と新しい曲のバランスで構成される。
本稿では,新しいトラックのアクティベートを事前に予測するために,音声情報を活用するモデルを提案する。
論文 参考訳(メタデータ) (2025-07-23T09:37:23Z) - Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks [18.95453617434051]
音楽レコメンデータシステムは、しばしばネットワークベースのモデルを使用して、楽曲、アーティスト、ユーザー間の関係をキャプチャする。
新しい音楽作品やアーティストは、初期情報が不十分なため、コールドスタートの問題に直面することが多い。
これを解決するために、音楽から直接コンテンツベースの情報を抽出し、協調フィルタリングに基づく手法を強化する。
論文 参考訳(メタデータ) (2024-09-13T17:53:06Z) - Comparative Analysis of Pretrained Audio Representations in Music Recommender Systems [0.0]
音楽情報検索 (MIR) は大量の音楽データに基づいて事前訓練された様々なモデルを提案する。
転送学習は、下流タスクの幅広い範囲で事前訓練されたバックエンドモデルの実証された効果を示す。
Music Recommender Systemsは、事前訓練されたモデルよりも、従来のエンドツーエンドのニューラルネットワーク学習を好む傾向がある。
論文 参考訳(メタデータ) (2024-09-13T17:03:56Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。