Fugu-MT 論文翻訳(概要): Benchmarking Sub-Genre Classification For Mainstage Dance Music

論文の概要: Benchmarking Sub-Genre Classification For Mainstage Dance Music

arxiv url: http://arxiv.org/abs/2409.06690v1
Date: Tue, 10 Sep 2024 17:54:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 16:23:35.059267
Title: Benchmarking Sub-Genre Classification For Mainstage Dance Music
Title（参考訳）: メインステージ・ダンス・ミュージックのためのサブジャンル分類のベンチマーク
Authors: Hongzhi Shu, Xinglin Li, Hongyu Jiang, Minghao Fu, Xinyu Li,
Abstract要約: この研究は、新しいデータセットとベースラインからなる新しいベンチマークを導入する。我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。ベースラインとして,現在最先端のマルチモデル言語モデルよりも優れたディープラーニングモデルを開発した。
参考スコア（独自算出の注目度）: 6.042939894766715
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Music classification, with a wide range of applications, is one of the most prominent tasks in music information retrieval. To address the absence of comprehensive datasets and high-performing methods in the classification of mainstage dance music, this work introduces a novel benchmark comprising a new dataset and a baseline. Our dataset extends the number of sub-genres to cover most recent mainstage live sets by top DJs worldwide in music festivals. A continuous soft labeling approach is employed to account for tracks that span multiple sub-genres, preserving the inherent sophistication. For the baseline, we developed deep learning models that outperform current state-of-the-art multimodel language models, which struggle to identify house music sub-genres, emphasizing the need for specialized models trained on fine-grained datasets. Our benchmark is applicable to serve for application scenarios such as music recommendation, DJ set curation, and interactive multimedia, where we also provide video demos. Our code is on \url{https://anonymous.4open.science/r/Mainstage-EDM-Benchmark/}.
Abstract（参考訳）: 幅広い用途の楽曲分類は、音楽情報検索において最も顕著な課題の1つである。メインステージダンス音楽の分類における包括的データセットやハイパフォーマンス手法の欠如に対処するため,本研究では,新たなデータセットとベースラインを含む新たなベンチマークを導入する。我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。連続的なソフトラベリングアプローチは、複数のサブジャンルにまたがるトラックを考慮に入れ、固有の洗練を保っている。ベースラインとして,現在最先端のマルチモデル言語モデルより優れたディープラーニングモデルを開発し,ハウスミュージックのサブジャンルを特定するのに苦労し,きめ細かいデータセットで訓練された専門モデルの必要性を強調した。我々のベンチマークは、音楽レコメンデーション、DJセットキュレーション、インタラクティブマルチメディアといったアプリケーションシナリオに応用でき、ビデオデモも提供しています。我々のコードは \url{https://anonymous.4open.science/r/Mainstage-EDM-Benchmark/} にある。

関連論文リスト

GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文参考訳（メタデータ） (2025-01-17T06:30:11Z)
Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music [0.8437187555622164]
音源分離は、楽曲を個々の音源に分解する。最も一般的なデータセットは、商業的な西洋音楽から作られる。「サニダ」は、カルナティック音楽のための最初のオープンソース・ノベル・データセットである。
論文参考訳（メタデータ） (2025-01-12T22:39:58Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文参考訳（メタデータ） (2023-12-14T18:38:02Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文参考訳（メタデータ） (2022-11-21T14:15:43Z)
MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文参考訳（メタデータ） (2022-09-09T03:52:44Z)
HouseX: A Fine-grained House Music Dataset and its Potential in the Music Industry [8.102989872457156]
我々は、将来の家、ベースハウス、プログレッシブハウス、メロディックハウスという4つのサブジャンルのレーベルを提供するハウスミュージックのデータセットを収集し、注釈付けした。我々は,トラックのメル-スペクトログラムに基づいてサブジャンルを分類するベースラインモデルを構築し,競争力のある結果を得た。
論文参考訳（メタデータ） (2022-07-24T08:19:19Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文参考訳（メタデータ） (2021-10-10T11:36:34Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。