論文の概要: Comparative Analysis of Pretrained Audio Representations in Music Recommender Systems
- arxiv url: http://arxiv.org/abs/2409.08987v1
- Date: Fri, 13 Sep 2024 17:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:26:51.448562
- Title: Comparative Analysis of Pretrained Audio Representations in Music Recommender Systems
- Title(参考訳): 音楽レコメンダシステムにおける事前学習音声表現の比較分析
- Authors: Yan-Martin Tamm, Anna Aljanaki,
- Abstract要約: 音楽情報検索 (MIR) は大量の音楽データに基づいて事前訓練された様々なモデルを提案する。
転送学習は、下流タスクの幅広い範囲で事前訓練されたバックエンドモデルの実証された効果を示す。
Music Recommender Systemsは、事前訓練されたモデルよりも、従来のエンドツーエンドのニューラルネットワーク学習を好む傾向がある。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Over the years, Music Information Retrieval (MIR) has proposed various models pretrained on large amounts of music data. Transfer learning showcases the proven effectiveness of pretrained backend models with a broad spectrum of downstream tasks, including auto-tagging and genre classification. However, MIR papers generally do not explore the efficiency of pretrained models for Music Recommender Systems (MRS). In addition, the Recommender Systems community tends to favour traditional end-to-end neural network learning over these models. Our research addresses this gap and evaluates the applicability of six pretrained backend models (MusicFM, Music2Vec, MERT, EncodecMAE, Jukebox, and MusiCNN) in the context of MRS. We assess their performance using three recommendation models: K-nearest neighbours (KNN), shallow neural network, and BERT4Rec. Our findings suggest that pretrained audio representations exhibit significant performance variability between traditional MIR tasks and MRS, indicating that valuable aspects of musical information captured by backend models may differ depending on the task. This study establishes a foundation for further exploration of pretrained audio representations to enhance music recommendation systems.
- Abstract(参考訳): 長年にわたり、音楽情報検索 (MIR) は大量の音楽データに基づいて事前訓練された様々なモデルを提案してきた。
転送学習は、自動タグ付けやジャンル分類など、下流タスクの幅広い範囲で事前訓練されたバックエンドモデルの実証された効果を示す。
しかし、MIR論文は一般に、音楽レコメンダシステム(MRS)の事前学習モデルの効率を探求していない。
さらに、Recommender Systemsコミュニティは、これらのモデルよりも従来のエンドツーエンドのニューラルネットワーク学習を好む傾向があります。
本研究は、このギャップに対処し、MSSの文脈における6つの事前訓練されたバックエンドモデル(MusicFM, Music2Vec, MERT, EncodecMAE, Jukebox, MusiCNN)の適用性を評価する。
以上の結果から,事前学習した音声表現は,従来のMIRタスクとMSSとの有意な性能変動を示すことが示唆され,バックエンドモデルが取得した音楽情報の価値は,タスクによって異なる可能性が示唆された。
本研究は,音楽レコメンデーションシステムを強化するために,事前学習した音声表現をさらに探求するための基盤を確立する。
関連論文リスト
- Transfer Learning for Passive Sonar Classification using Pre-trained Audio and ImageNet Models [39.85805843651649]
本研究では,事前学習型Audio Neural Networks(PANNs)とImageNet事前学習型モデルを比較した。
また, 受動的ソナー分類において, ImageNet事前学習モデルの方が若干優れていた。
論文 参考訳(メタデータ) (2024-09-20T20:13:45Z) - Towards Leveraging Contrastively Pretrained Neural Audio Embeddings for Recommender Tasks [18.95453617434051]
音楽レコメンデータシステムは、しばしばネットワークベースのモデルを使用して、楽曲、アーティスト、ユーザー間の関係をキャプチャする。
新しい音楽作品やアーティストは、初期情報が不十分なため、コールドスタートの問題に直面することが多い。
これを解決するために、音楽から直接コンテンツベースの情報を抽出し、協調フィルタリングに基づく手法を強化する。
論文 参考訳(メタデータ) (2024-09-13T17:53:06Z) - Music Genre Classification: Training an AI model [0.0]
音楽ジャンル分類は、音声信号の処理に機械学習モデルと技法を利用する分野である。
本研究では,音楽ジャンル分類のための機械学習アルゴリズムについて,音声信号から抽出した特徴を用いて検討する。
ジャンル分類のための機械学習モデルの堅牢性を評価し、その結果を比較することを目的としている。
論文 参考訳(メタデータ) (2024-05-23T23:07:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z) - A Survey on Neural Recommendation: From Collaborative Filtering to
Content and Context Enriched Recommendation [70.69134448863483]
レコメンデーションの研究は、ニューラルネットワークに基づく新しいレコメンダーモデルの発明にシフトした。
近年,神経リコメンデータモデルの開発が著しい進展を遂げている。
論文 参考訳(メタデータ) (2021-04-27T08:03:52Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。