論文の概要: MARBLE: Music Audio Representation Benchmark for Universal Evaluation
- arxiv url: http://arxiv.org/abs/2306.10548v4
- Date: Thu, 23 Nov 2023 10:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 04:06:22.175769
- Title: MARBLE: Music Audio Representation Benchmark for Universal Evaluation
- Title(参考訳): MARBLE:ユニバーサル評価のための音楽オーディオ表現ベンチマーク
- Authors: Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin,
Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang,
Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger
Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike
Guo, Jie Fu
- Abstract要約: 我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
- 参考スコア(独自算出の注目度): 79.25065218663458
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the era of extensive intersection between art and Artificial Intelligence
(AI), such as image generation and fiction co-creation, AI for music remains
relatively nascent, particularly in music understanding. This is evident in the
limited work on deep music representations, the scarcity of large-scale
datasets, and the absence of a universal and community-driven benchmark. To
address this issue, we introduce the Music Audio Representation Benchmark for
universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various
Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy
with four hierarchy levels, including acoustic, performance, score, and
high-level description. We then establish a unified protocol based on 14 tasks
on 8 public-available datasets, providing a fair and standard assessment of
representations of all open-sourced pre-trained models developed on music
recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and
reproducible suite for the community, with a clear statement on copyright
issues on datasets. Results suggest recently proposed large-scale pre-trained
musical language models perform the best in most tasks, with room for further
improvement. The leaderboard and toolkit repository are published at
https://marble-bm.shef.ac.uk to promote future music AI research.
- Abstract(参考訳): 画像生成やフィクションの共創など、芸術と人工知能(AI)の広範な交差の時代において、音楽のためのAIは、特に音楽の理解において比較的初期段階にある。
これは、深い音楽表現に関する限られた作業、大規模データセットの不足、普遍的でコミュニティ主導のベンチマークの欠如によって明らかである。
この問題に対処するため,MARBLEと呼ばれるUniversaL評価のためのMusic Audio Representation Benchmarkを導入する。
音響、パフォーマンス、スコア、ハイレベル記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供する。
次に,8つの公開データセット上で14のタスクに基づく統一プロトコルを構築し,音楽録音をベースラインとして開発したオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
さらに、MARBLEは、データセットの著作権問題に関する明確な声明とともに、使いやすく、拡張可能で、再現可能なスイートをコミュニティに提供する。
その結果、近年提案されている大規模事前学習型言語モデルは、多くのタスクにおいて最善を尽くし、さらなる改善の余地があることがわかった。
leaderboardと toolkitリポジトリは、将来の音楽ai研究を促進するためにhttps://marble-bm.shef.ac.ukで公開されている。
関連論文リスト
- MusiLingo: Bridging Music and Text with Pre-trained Language Models for
Music Captioning and Query Response [44.58063693945076]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - Music Understanding LLaMA: Advancing Text-to-Music Generation with
Question Answering and Captioning [37.76488341368786]
テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。
音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
論文 参考訳(メタデータ) (2023-08-22T08:43:33Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文 参考訳(メタデータ) (2021-03-17T02:53:55Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。