論文の概要: YMIR: A new Benchmark Dataset and Model for Arabic Yemeni Music Genre Classification Using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2604.05011v1
- Date: Mon, 06 Apr 2026 15:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.40508
- Title: YMIR: A new Benchmark Dataset and Model for Arabic Yemeni Music Genre Classification Using Convolutional Neural Networks
- Title(参考訳): YMIR:畳み込みニューラルネットワークを用いたアラビア語イエメン音楽ジャンル分類のための新しいベンチマークデータセットとモデル
- Authors: Moeen AL-Makhlafi, Abdulrahman A. AlKannad, Eiad Almekhlafi, Nawaf Q. Othman Ahmed Mohammed, Saher Qaid,
- Abstract要約: イエメン音楽情報検索(YMIR)データセットは,5つのジャンルをカバーする1,475個の慎重に選択された音声クリップを含む。
また、時間周波数の特徴から音楽ジャンルを分類するために設計された畳み込みニューラルネットワーク(CNN)に基づくYemeni Music Classification Model (YMCM)を提案する。
- 参考スコア(独自算出の注目度): 1.1744028458220428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic music genre classification is a major task in music information retrieval; however, most current benchmarks and models have been developed primarily for Western music, leaving culturally specific traditions underrepresented. In this paper, we introduce the Yemeni Music Information Retrieval (YMIR) dataset, which contains 1,475 carefully selected audio clips covering five traditional Yemeni genres: Sanaani, Hadhrami, Lahji, Tihami, and Adeni. The dataset was labeled by five Yemeni music experts following a clear and structured protocol, resulting in strong inter-annotator agreement (Fleiss kappa = 0.85). We also propose the Yemeni Music Classification Model (YMCM), a convolutional neural network (CNN)-based system designed to classify music genres from time-frequency features. Using a consistent preprocessing pipeline, we perform a systematic comparison across six experimental groups and five different architectures, resulting in a total of 30 experiments. Specifically, we evaluate several feature representations, including Mel-spectrograms, Chroma, FilterBank, and MFCCs with 13, 20, and 40 coefficients, and benchmark YMCM against standard models (AlexNet, VGG16, MobileNet, and a baseline CNN) under the same experimental conditions. The experimental findings reveal that YMCM is the most effective, achieving the highest accuracy of 98.8% with Mel-spectrogram features. The results also provide practical insights into the relationship between feature representation and model capacity. The findings establish YMIR as a useful benchmark and YMCM as a strong baseline for classifying Yemeni music genres.
- Abstract(参考訳): 音楽ジャンルの自動分類は、音楽情報検索において重要な課題であるが、現在のベンチマークやモデルは、主に西洋音楽のために開発され、文化的に特定の伝統がほとんど表現されていない。
本稿では,サナニ,ハドラミ,ラージ,ティハミ,アデニの5つの伝統的なイエメンのジャンルをカバーする,慎重に選択された1,475のオーディオクリップを含むYemeni Music Information Retrieval(YMIR)データセットを紹介する。
データセットは5人のイエメンの音楽専門家によって、明確で構造化されたプロトコルに従ってラベル付けされ、強力なアノテーション間の合意が得られた(Fleiss kappa = 0.85)。
また、時間周波数の特徴から音楽ジャンルを分類するために設計された畳み込みニューラルネットワーク(CNN)に基づくYemeni Music Classification Model (YMCM)を提案する。
一貫性のある前処理パイプラインを用いて、6つの実験グループと5つの異なるアーキテクチャを体系的に比較し、合計30の実験結果を得た。
具体的には、Mel-spectrograms, Chroma, FilterBank, MFCCsを13, 20, 40係数で評価し、同じ実験条件下で標準モデル(AlexNet, VGG16, MobileNet, ベースラインCNN)に対してYMCMをベンチマークする。
実験の結果,YMCMが最も有効であり,Mel-spectrogramで98.8%の精度が得られた。
結果はまた、特徴表現とモデルキャパシティの関係に関する実践的な洞察を与える。
その結果,YMIRは有用なベンチマークとして,YMCMはイエメンの音楽ジャンルを分類するための強力なベースラインとして確立した。
関連論文リスト
- Music Genre Classification: A Comparative Analysis of Classical Machine Learning and Deep Learning Approaches [0.0]
ネパールの8つのジャンルにまたがる約8,000のラベル付き30秒音声クリップからなる新しいデータセットを構築した。
我々は、ネパールの音楽の伝統において真に重複していることを反映した、文化的に根ざした誤分類パターンの解釈を提供する。
論文 参考訳(メタデータ) (2026-03-16T15:43:48Z) - Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。
私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。
我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文 参考訳(メタデータ) (2025-03-20T19:31:04Z) - Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - A dataset and classification model for Malay, Hindi, Tamil and Chinese
music [7.35996217853436]
この新しいデータセットを用いて、異なる分類モデルを訓練し、これらの民族集団の観点から音楽の起源を区別する。
分類モデルは、異なる音楽的特徴を入力として使用することによって最適化された。
論文 参考訳(メタデータ) (2020-09-09T06:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。