論文の概要: Benchmarking Sub-Genre Classification For Mainstage Dance Music
- arxiv url: http://arxiv.org/abs/2409.06690v3
- Date: Mon, 04 Aug 2025 10:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:55.388623
- Title: Benchmarking Sub-Genre Classification For Mainstage Dance Music
- Title(参考訳): メインステージ・ダンス・ミュージックのためのサブジャンル分類のベンチマーク
- Authors: Hongzhi Shu, Xinglin Li, Hongyu Jiang, Minghao Fu, Xinyu Li,
- Abstract要約: 新しいデータセットとベースラインを特徴とする新しいベンチマークを導入する。
我々のデータセットは、グローバル音楽祭でDJをリードする人々が行った最近のメインステージライブセットの多様性を反映するため、サブジャンルの範囲を広げている。
このベンチマークは、音楽レコメンデーション、DJセットキュレーション、インタラクティブマルチメディアシステムなどのアプリケーションをサポートし、ビデオデモを提供している。
- 参考スコア(独自算出の注目度): 6.042939894766715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Music classification, a cornerstone of music information retrieval, supports a wide array of applications. To address the lack of comprehensive datasets and effective methods for sub-genre classification in mainstage dance music, we introduce a novel benchmark featuring a new dataset and baseline. Our dataset expands the scope of sub-genres to reflect the diversity of recent mainstage live sets performed by leading DJs at global music festivals, capturing the vibrant and rapidly evolving electronic dance music (EDM) scene that engages millions of fans worldwide. We employ a continuous soft labeling approach to accommodate tracks blending multiple sub-genres, preserving their inherent complexity. Experiments demonstrate that even state-of-the-art multimodal large language models (MLLMs) struggle with this task, while our specialized baseline models achieve high accuracy. This benchmark supports applications such as music recommendation, DJ set curation, and interactive multimedia systems, with video demos provided. Our code and data are all open-sourced at https://github.com/Gariscat/housex-v2.git.
- Abstract(参考訳): 音楽情報検索の基盤である音楽分類は、幅広いアプリケーションをサポートする。
メインステージダンス音楽における包括的データセットの欠如と、サブジャンル分類の効果的な方法に対処するために、新しいデータセットとベースラインを備えた新しいベンチマークを導入する。
我々のデータセットはサブジャンルの範囲を広げ、グローバル音楽祭でリードDJが行った最近のメインステージライブセットの多様性を反映し、世界中の何百万ものファンを巻き込む活発で急速に進化する電子ダンスミュージック(EDM)のシーンを捉えている。
我々は、複数のサブジャンルをブレンドするトラックに対応するために、連続的なソフトラベリングアプローチを採用し、その固有の複雑さを保っている。
実験により,最先端のマルチモーダル言語モデル (MLLM) でさえ,この課題に苦慮することが示された。
このベンチマークは、音楽レコメンデーション、DJセットキュレーション、インタラクティブマルチメディアシステムなどのアプリケーションをサポートし、ビデオデモを提供している。
私たちのコードとデータは、https://github.com/Gariscat/housex-v2.git.comでオープンソース化されています。
関連論文リスト
- GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。
本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。
提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文 参考訳(メタデータ) (2025-01-17T06:30:11Z) - Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music [0.8437187555622164]
音源分離は、楽曲を個々の音源に分解する。
最も一般的なデータセットは、商業的な西洋音楽から作られる。
「サニダ」は、カルナティック音楽のための最初のオープンソース・ノベル・データセットである。
論文 参考訳(メタデータ) (2025-01-12T22:39:58Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - HouseX: A Fine-grained House Music Dataset and its Potential in the
Music Industry [8.102989872457156]
我々は、将来の家、ベースハウス、プログレッシブハウス、メロディックハウスという4つのサブジャンルのレーベルを提供するハウスミュージックのデータセットを収集し、注釈付けした。
我々は,トラックのメル-スペクトログラムに基づいてサブジャンルを分類するベースラインモデルを構築し,競争力のある結果を得た。
論文 参考訳(メタデータ) (2022-07-24T08:19:19Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。