論文の概要: Deep Learning Based EDM Subgenre Classification using Mel-Spectrogram
and Tempogram Features
- arxiv url: http://arxiv.org/abs/2110.08862v1
- Date: Sun, 17 Oct 2021 16:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 09:43:23.402098
- Title: Deep Learning Based EDM Subgenre Classification using Mel-Spectrogram
and Tempogram Features
- Title(参考訳): メルスペクトログラムとテンポグラム特徴を用いた深層学習に基づくEDMサブジェネア分類
- Authors: Wei-Han Hsu, Bo-Yu Chen, Yi-Hsuan Yang
- Abstract要約: 近年、エレクトロニック・ダンス・ミュージック(Electronic Dance Music)の多くのスタイルや「サブジャンル」が出現している。
我々は最先端の音楽自動タグモデル"short-chunkCNN+Resnet"をEDMサブジャンル分類に拡張する。
提案手法は,30種類のEDMサブジャンルに対して75,000曲からなる大データセットを用いて評価する。
- 参考スコア(独自算出の注目度): 33.20492437338675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Along with the evolution of music technology, a large number of styles, or
"subgenres," of Electronic Dance Music(EDM) have emerged in recent years. While
the classification task of distinguishing between EDM and non-EDM has been
often studied in the context of music genre classification, little work has
been done on the more challenging EDM subgenre classification. The state-of-art
model is based on extremely randomized trees and could be improved by deep
learning methods. In this paper, we extend the state-of-art music auto-tagging
model "short-chunkCNN+Resnet" to EDM subgenre classification, with the addition
of two mid-level tempo-related feature representations, called the Fourier
tempogram and autocorrelation tempogram. And, we explore two fusion strategies,
early fusion and late fusion, to aggregate the two types of tempograms. We
evaluate the proposed models using a large dataset consisting of 75,000 songs
for 30 different EDM subgenres, and show that the adoption of deep learning
models and tempo features indeed leads to higher classification accuracy.
- Abstract(参考訳): 音楽技術の発展とともに、電子ダンス音楽(edm)の「サブジャンル」と呼ばれる多くのスタイルが近年登場している。
EDMと非EDMを区別する分類課題は、音楽ジャンル分類の文脈においてしばしば研究されているが、より困難なEDMサブジャンル分類についてはほとんど研究されていない。
最先端モデルは極めてランダムな木に基づいており、深層学習法によって改善できる。
本稿では,現在最先端の音楽自動タグモデルであるShort-chunkCNN+ResnetをEDMサブジャンルに拡張し,Fourier tempogram とautocorrelation tempogram という2つの中レベルのテンポ関連特徴表現を追加する。
そして, 早期融合と後期融合という2つの融合戦略を探索し, 二つのタイプのテンポグラムを集約する。
提案手法は,30種類のEDMサブジャンルに対して75,000曲からなる大規模データセットを用いて評価し,深層学習モデルとテンポ特徴の導入により,分類精度が向上したことを示す。
関連論文リスト
- Benchmarking Sub-Genre Classification For Mainstage Dance Music [6.042939894766715]
この研究は、新しいデータセットとベースラインからなる新しいベンチマークを導入する。
我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。
ベースラインとして,現在最先端のマルチモデル言語モデルよりも優れたディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2024-09-10T17:54:00Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - HouseX: A Fine-grained House Music Dataset and its Potential in the
Music Industry [8.102989872457156]
我々は、将来の家、ベースハウス、プログレッシブハウス、メロディックハウスという4つのサブジャンルのレーベルを提供するハウスミュージックのデータセットを収集し、注釈付けした。
我々は,トラックのメル-スペクトログラムに基づいてサブジャンルを分類するベースラインモデルを構築し,競争力のある結果を得た。
論文 参考訳(メタデータ) (2022-07-24T08:19:19Z) - cMelGAN: An Efficient Conditional Generative Model Based on Mel
Spectrograms [0.0]
本研究はメルスペクトログラムに基づくジャンル条件付き音楽生成モデルを開発する。
音符ベース表現を用いた既存の生成音楽モデルと比較することにより,その性能を評価する。
論文 参考訳(メタデータ) (2022-05-15T15:53:43Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。