論文の概要: EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation
- arxiv url: http://arxiv.org/abs/2603.08759v1
- Date: Sun, 08 Mar 2026 15:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.728219
- Title: EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation
- Title(参考訳): EDMFormer:音楽構造セグメンテーションのための独特な自己教師付き学習
- Authors: Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song Bae,
- Abstract要約: 音楽構造セグメンテーションは音声解析において重要な課題であるが、既存のモデルは電子ダンス・ミュージック(EDM)では不十分である。
本稿では,EDM固有のデータセットと分類を用いた自己教師型オーディオ埋め込みを組み合わせたトランスフォーマーモデルであるEDMFormerを紹介する。
その結果、学習した表現とジャンル別データと構造的先行データを組み合わせることは、EDMに有効であり、他の専門音楽ジャンルやより広範なオーディオ分野に適用できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Music structure segmentation is a key task in audio analysis, but existing models perform poorly on Electronic Dance Music (EDM). This problem exists because most approaches rely on lyrical or harmonic similarity, which works well for pop music but not for EDM. EDM structure is instead defined by changes in energy, rhythm, and timbre, with different sections such as buildup, drop, and breakdown. We introduce EDMFormer, a transformer model that combines self-supervised audio embeddings using an EDM-specific dataset and taxonomy. We release this dataset as EDM-98: a group of 98 professionally annotated EDM tracks. EDMFormer improves boundary detection and section labelling compared to existing models, particularly for drops and buildups. The results suggest that combining learned representations with genre-specific data and structural priors is effective for EDM and could be applied to other specialized music genres or broader audio domains.
- Abstract(参考訳): 音楽構造セグメンテーションは音声解析において重要な課題であるが、既存のモデルは電子ダンス・ミュージック(EDM)では不十分である。
この問題は、ほとんどのアプローチが歌詞やハーモニックな類似性に依存しており、ポップミュージックではうまく機能するが、EDMでは機能しないためである。
代わりに、EDM構造はエネルギー、リズム、音色の変化によって定義され、ビルドアップ、ドロップ、ダウンなどの異なるセクションがある。
本稿では,EDM固有のデータセットと分類を用いた自己教師型オーディオ埋め込みを組み合わせたトランスフォーマーモデルであるEDMFormerを紹介する。
EDM-98:98の専門的な注釈付きEDMトラックのグループとして、このデータセットをリリースする。
EDMFormerは、特にドロップやビルドアップにおいて、既存のモデルと比較して境界検出とセクションラベリングを改善している。
その結果、学習した表現とジャンル別データと構造的先行データを組み合わせることは、EDMに有効であり、他の専門音楽ジャンルやより広範なオーディオ分野に適用できる可能性が示唆された。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure [8.721294663967305]
ディープ・ミュージック・ジェネレーションにおける新しいアプローチとしてTOMI(Transforming and Organizing Music Ideas)を紹介する。
ビデオクリップ(短い音声またはMIDIセグメント)、セクション(時間的位置)、トラック(構造層)、変換によって特徴付けられる、スパースな4次元空間を介して、多トラック合成プロセスを表現する。
本モデルでは,マルチトラックの電子楽曲を全曲構造で生成することが可能であり,TOMIモデルとREAPERデジタルオーディオワークステーションをさらに統合する。
論文 参考訳(メタデータ) (2025-06-29T05:15:41Z) - InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文 参考訳(メタデータ) (2023-08-28T07:11:42Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - LooPy: A Research-Friendly Mix Framework for Music Information Retrieval
on Electronic Dance Music [8.102989872457156]
自動EDM音声生成のためのPythonパッケージを,EMM楽曲のMIR基盤として提案する。
プロレベルのテンプレートを構築するためのフレームワークを提供しています。
実験により、我々のミックスは、世界的に有名なアーティストが制作したオリジナル・レファレンス・ソングと同じ品質を達成できることが示された。
論文 参考訳(メタデータ) (2023-05-01T19:30:47Z) - Deep Learning Based EDM Subgenre Classification using Mel-Spectrogram
and Tempogram Features [33.20492437338675]
近年、エレクトロニック・ダンス・ミュージック(Electronic Dance Music)の多くのスタイルや「サブジャンル」が出現している。
我々は最先端の音楽自動タグモデル"short-chunkCNN+Resnet"をEDMサブジャンル分類に拡張する。
提案手法は,30種類のEDMサブジャンルに対して75,000曲からなる大データセットを用いて評価する。
論文 参考訳(メタデータ) (2021-10-17T16:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。