論文の概要: Can pre-trained Deep Learning models predict groove ratings?
- arxiv url: http://arxiv.org/abs/2603.27237v1
- Date: Sat, 28 Mar 2026 11:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.858604
- Title: Can pre-trained Deep Learning models predict groove ratings?
- Title(参考訳): 事前学習されたディープラーニングモデルは溝評価を予測することができるか?
- Authors: Axel Marmoret, Nicolas Farrugia, Jan Alexander Stupacher,
- Abstract要約: 本研究では,深層学習モデルが音声信号から直接溝とその関連する知覚次元を予測できる範囲について検討する。
溝評価と溝関連クエリに対する応答を予測するため、7つの最先端ディープラーニングモデルの有効性を批判的に検討する。
- 参考スコア(独自算出の注目度): 1.7262181262898757
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study explores the extent to which deep learning models can predict groove and its related perceptual dimensions directly from audio signals. We critically examine the effectiveness of seven state-of-the-art deep learning models in predicting groove ratings and responses to groove-related queries through the extraction of audio embeddings. Additionally, we compare these predictions with traditional handcrafted audio features. To better understand the underlying mechanics, we extend this methodology to analyze predictions based on source-separated instruments, thereby isolating the contributions of individual musical elements. Our analysis reveals a clear separation of groove characteristics driven by the underlying musical style of the tracks (funk, pop, and rock). These findings indicate that deep audio representations can successfully encode complex, style-dependent groove components that traditional features often miss. Ultimately, this work highlights the capacity of advanced deep learning models to capture the multifaceted concept of groove, demonstrating the strong potential of representation learning to advance predictive Music Information Retrieval methodologies.
- Abstract(参考訳): 本研究では,深層学習モデルが音声信号から直接溝とその関連する知覚次元を予測できる範囲について検討する。
音声埋め込みの抽出による溝評価と溝関連クエリに対する応答の予測において、7つの最先端ディープラーニングモデルの有効性を批判的に検証する。
さらに、これらの予測を従来の手作りオーディオ機能と比較する。
基礎となる力学をより深く理解するために,この方法論を拡張して,音源分離した楽器に基づいて予測を解析し,個々の音楽要素の寄与を分離する。
解析の結果,基礎となる楽曲(ファンク,ポップ,ロック)によって引き起こされる溝特性の明確な分離が明らかになった。
これらの結果は、ディープオーディオ表現が、従来の特徴がしばしば見逃す複雑なスタイル依存の溝成分をエンコードできることを示している。
最終的に、この研究は、多面的な溝の概念を捉えるための高度なディープラーニングモデルの能力を強調し、予測的音楽情報検索手法を推し進めるための表現学習の強い可能性を示す。
関連論文リスト
- Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Discovering and Steering Interpretable Concepts in Large Generative Music Models [30.071130311851277]
スパースオートエンコーダ(SAE)を用いた解釈可能な概念発見手法を提案する。
以上の結果から,理論や言語には明確な相違点が欠如していることが判明した。
拡張として、モデル世代をステアリングするためにそのような概念を使用できることを示す。
論文 参考訳(メタデータ) (2025-05-18T19:44:20Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Supervised and Unsupervised Learning of Audio Representations for Music
Understanding [9.239657838690226]
トレーニング済みデータセットのドメインが、ダウンストリームタスクに対するオーディオ埋め込みの結果の妥当性にどのように影響するかを示す。
大規模専門家による注釈付き音楽データセットの教師あり学習により訓練されたモデルが,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-10-07T20:07:35Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。