論文の概要: MARBLE: Music Audio Representation Benchmark for Universal Evaluation
- arxiv url: http://arxiv.org/abs/2306.10548v4
- Date: Thu, 23 Nov 2023 10:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:06:22.175769
- Title: MARBLE: Music Audio Representation Benchmark for Universal Evaluation
- Title(参考訳): MARBLE:ユニバーサル評価のための音楽オーディオ表現ベンチマーク
- Authors: Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin,
Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang,
Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger
Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike
Guo, Jie Fu
- Abstract要約: 我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
- 参考スコア(独自算出の注目度): 79.25065218663458
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the era of extensive intersection between art and Artificial Intelligence
(AI), such as image generation and fiction co-creation, AI for music remains
relatively nascent, particularly in music understanding. This is evident in the
limited work on deep music representations, the scarcity of large-scale
datasets, and the absence of a universal and community-driven benchmark. To
address this issue, we introduce the Music Audio Representation Benchmark for
universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various
Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy
with four hierarchy levels, including acoustic, performance, score, and
high-level description. We then establish a unified protocol based on 14 tasks
on 8 public-available datasets, providing a fair and standard assessment of
representations of all open-sourced pre-trained models developed on music
recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and
reproducible suite for the community, with a clear statement on copyright
issues on datasets. Results suggest recently proposed large-scale pre-trained
musical language models perform the best in most tasks, with room for further
improvement. The leaderboard and toolkit repository are published at
https://marble-bm.shef.ac.uk to promote future music AI research.
- Abstract(参考訳): 画像生成やフィクションの共創など、芸術と人工知能(AI)の広範な交差の時代において、音楽のためのAIは、特に音楽の理解において比較的初期段階にある。
これは、深い音楽表現に関する限られた作業、大規模データセットの不足、普遍的でコミュニティ主導のベンチマークの欠如によって明らかである。
この問題に対処するため,MARBLEと呼ばれるUniversaL評価のためのMusic Audio Representation Benchmarkを導入する。
音響、パフォーマンス、スコア、ハイレベル記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供する。
次に,8つの公開データセット上で14のタスクに基づく統一プロトコルを構築し,音楽録音をベースラインとして開発したオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
さらに、MARBLEは、データセットの著作権問題に関する明確な声明とともに、使いやすく、拡張可能で、再現可能なスイートをコミュニティに提供する。
その結果、近年提案されている大規模事前学習型言語モデルは、多くのタスクにおいて最善を尽くし、さらなる改善の余地があることがわかった。
leaderboardと toolkitリポジトリは、将来の音楽ai研究を促進するためにhttps://marble-bm.shef.ac.ukで公開されている。
関連論文リスト
- Benchmarking Sub-Genre Classification For Mainstage Dance Music [6.042939894766715]
この研究は、新しいデータセットとベースラインからなる新しいベンチマークを導入する。
我々のデータセットは、世界中の音楽祭のトップDJによる最新のメインステージのライブセットをカバーするために、サブジャンルの数を拡張しています。
ベースラインとして,現在最先端のマルチモデル言語モデルよりも優れたディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2024-09-10T17:54:00Z) - The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models [63.53530525014976]
ZIQI-Evalは、大規模言語モデル(LLM)の音楽関連能力を評価するために設計されたベンチマークである。
ZIQI-Evalは10の主要なカテゴリと56のサブカテゴリをカバーし、14,000以上の精巧にキュレートされたデータエントリをカバーしている。
その結果,全てのLLMはZIQI-Evalベンチマークでは性能が悪く,音楽能力の向上の余地が示唆された。
論文 参考訳(メタデータ) (2024-06-22T16:24:42Z) - MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing [3.3162176082220975]
高品質な3次元モーションキャプチャーデータ、アライメント音声記録、ピッチ、ビート、フレーズ、動的、調音、ハーモニーを含むMOSA(Music mOtion with Semantic )データセットを23人のプロミュージシャンによる742のプロ音楽演奏に対して提示する。
私たちの知る限り、これはこれまでのノートレベルのアノテーションを備えた、最大のクロスモーダルな音楽データセットです。
論文 参考訳(メタデータ) (2024-06-10T15:37:46Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文 参考訳(メタデータ) (2021-03-17T02:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。