論文の概要: Music Genre Classification: A Comparative Analysis of Classical Machine Learning and Deep Learning Approaches
- arxiv url: http://arxiv.org/abs/2603.15440v1
- Date: Mon, 16 Mar 2026 15:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.552563
- Title: Music Genre Classification: A Comparative Analysis of Classical Machine Learning and Deep Learning Approaches
- Title(参考訳): 音楽ジャンル分類:古典的機械学習と深層学習の比較分析
- Authors: Sachin Prajuli, Abhishek Karna, OmPrakash Dhakl,
- Abstract要約: ネパールの8つのジャンルにまたがる約8,000のラベル付き30秒音声クリップからなる新しいデータセットを構築した。
我々は、ネパールの音楽の伝統において真に重複していることを反映した、文化的に根ざした誤分類パターンの解釈を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic music genre classification is a long-standing challenge in Music Information Retrieval (MIR); work on non-Western music traditions remains scarce. Nepali music encompasses culturally rich and acoustically diverse genres--from the call-and-response duets of Lok Dohori to the rhythmic poetry of Deuda and the distinctive melodies of Tamang Selo--that have not been addressed by existing classification systems. In this paper, we construct a novel dataset of approximately 8,000 labeled 30-second audio clips spanning eight Nepali music genres and conduct a systematic comparison of nine classification models across two paradigms. Five classical machine learning classifiers (Logistic Regression, SVM, KNN, Random Forest, and XGBoost) are trained on 51 hand-crafted audio features extracted via Librosa, while four deep learning architectures (CNN, RNN, parallel CNN-RNN, and sequential CNN followed by RNN) operate on Mel spectrograms of dimension 640 x 128. Our experiments reveal that the sequential Convolutional Recurrent Neural Network (CRNN)--in which convolutional layers feed into an LSTM--achieves the highest accuracy of 84%, substantially outperforming both the best classical models (Logistic Regression and XGBoost, both at 71%) and all other deep architectures. We provide per-class precision, recall, F1-score, confusion matrices, and ROC analysis for every model, and offer a culturally grounded interpretation of misclassification patterns that reflects genuine overlaps in Nepal's musical traditions.
- Abstract(参考訳): 自動音楽ジャンル分類は、音楽情報検索(MIR)における長年の課題である。
ネパールの音楽は、ロック・ドホリのコール・アンド・レスポンス・デュエットからデューダのリズム詩、タマル・セロの独特な旋律まで、文化的に豊かで音響的に多様なジャンルを包含している。
本論文では,ネパールの8つのジャンルにまたがる約8,000のラベル付き30秒音声クリップを新たに構築し,9つの分類モデルを2つのパラダイムで体系的に比較する。
5つの古典的機械学習分類器(ロジスティック回帰、SVM、KNN、ランダムフォレスト、XGBoost)は、Librosa経由で抽出された51個の手作りオーディオ機能で訓練され、4つのディープラーニングアーキテクチャ(CNN、RNN、並列CNN-RNN、シーケンシャルCNN)は640 x 128のMelスペクトルで動作する。
実験の結果,畳み込み層がLSTMに供給される逐次畳み込みリカレントニューラルネットワーク(CRNN)は84%の精度で,最も優れた古典的モデル(ロジスティック回帰とXGBoost,いずれも71%)と,他の深層アーキテクチャの両方を著しく上回っていることがわかった。
ネパールの音楽の伝統において真に重複していることを反映した、クラスごとの精度、リコール、F1スコア、混乱行列、ROC分析を各モデルに提供し、文化的に根ざした誤分類パターンの解釈を提供する。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning [55.80320947983555]
CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。
650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
論文 参考訳(メタデータ) (2025-06-21T21:16:39Z) - Universal Music Representations? Evaluating Foundation Models on World Music Corpora [65.72891334156706]
ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。
本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2025-06-20T15:06:44Z) - Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Comparing the Accuracy of Deep Neural Networks (DNN) and Convolutional
Neural Network (CNN) in Music Genre Recognition (MGR): Experiments on Kurdish
Music [0.0]
8種類のクルド音楽ジャンルの880のサンプルを含むデータセットを開発した。
我々は、Deep Neural Network(DNN)とConvolutional Neural Network(CNN)の2つの機械学習アプローチを評価し、そのジャンルを認識した。
論文 参考訳(メタデータ) (2021-11-22T09:21:48Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。