論文の概要: Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms
- arxiv url: http://arxiv.org/abs/2401.04737v1
- Date: Tue, 9 Jan 2024 01:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 16:17:16.775036
- Title: Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms
- Title(参考訳): 音楽ジャンル分類:メル周波数ケプストラム係数とメルスペクトログラムを用いたcnnとxgboostアプローチの比較分析
- Authors: Yigang Meng
- Abstract要約: 提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, various well-designed algorithms have empowered music
platforms to provide content based on one's preferences. Music genres are
defined through various aspects, including acoustic features and cultural
considerations. Music genre classification works well with content-based
filtering, which recommends content based on music similarity to users. Given a
considerable dataset, one premise is automatic annotation using machine
learning or deep learning methods that can effectively classify audio files.
The effectiveness of systems largely depends on feature and model selection, as
different architectures and features can facilitate each other and yield
different results. In this study, we conduct a comparative study investigating
the performances of three models: a proposed convolutional neural network
(CNN), the VGG16 with fully connected layers (FC), and an eXtreme Gradient
Boosting (XGBoost) approach on different features: 30-second Mel spectrogram
and 3-second Mel-frequency cepstral coefficients (MFCCs). The results show that
the MFCC XGBoost model outperformed the others. Furthermore, applying data
segmentation in the data preprocessing phase can significantly enhance the
performance of the CNNs.
- Abstract(参考訳): 近年、様々なよく設計されたアルゴリズムが、好みに基づいたコンテンツを提供する音楽プラットフォームに力を与えている。
音楽ジャンルは、音響的特徴や文化的考察を含む様々な側面を通して定義される。
音楽ジャンル分類は、ユーザーと音楽の類似性に基づくコンテンツを推奨するコンテンツベースのフィルタリングとうまく機能する。
かなりのデータセットが与えられた場合、ある前提は、音声ファイルを効果的に分類できる機械学習またはディープラーニングメソッドを使用した自動アノテーションである。
システムの有効性は、異なるアーキテクチャと機能によって互いに促進され、異なる結果が得られるため、機能選択とモデル選択に大きく依存する。
本研究では,提案した畳み込みニューラルネットワーク(CNN),完全連結層を持つVGG16,および30秒メルスペクトルと3秒メル周波数ケプストラム係数(MFCC)の異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について比較研究を行った。
その結果, MFCC XGBoostモデルが他のモデルよりも優れていた。
さらに、データ前処理フェーズにデータセグメンテーションを適用することで、cnnの性能を大幅に向上させることができる。
関連論文リスト
- Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Music Genre Classification: Training an AI model [0.0]
音楽ジャンル分類は、音声信号の処理に機械学習モデルと技法を利用する分野である。
本研究では,音楽ジャンル分類のための機械学習アルゴリズムについて,音声信号から抽出した特徴を用いて検討する。
ジャンル分類のための機械学習モデルの堅牢性を評価し、その結果を比較することを目的としている。
論文 参考訳(メタデータ) (2024-05-23T23:07:01Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Investigating Multi-Feature Selection and Ensembling for Audio
Classification [0.8602553195689513]
ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。
音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
論文 参考訳(メタデータ) (2022-06-15T13:11:08Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。