論文の概要: Music4All A+A: A Multimodal Dataset for Music Information Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2509.14891v1
- Date: Thu, 18 Sep 2025 12:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.205519
- Title: Music4All A+A: A Multimodal Dataset for Music Information Retrieval Tasks
- Title(参考訳): Music4All A+A:音楽情報検索タスクのためのマルチモーダルデータセット
- Authors: Jonas Geiger, Marta Moscati, Shah Nawaz, Markus Schedl,
- Abstract要約: 音楽は様々なレベルの粒度で説明できる。
Music4All A+Aは、音楽アーティストやアルバムに基づいたマルチモーダルMIRタスクのためのデータセットである。
- 参考スコア(独自算出の注目度): 10.492889207034459
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Music is characterized by aspects related to different modalities, such as the audio signal, the lyrics, or the music video clips. This has motivated the development of multimodal datasets and methods for Music Information Retrieval (MIR) tasks such as genre classification or autotagging. Music can be described at different levels of granularity, for instance defining genres at the level of artists or music albums. However, most datasets for multimodal MIR neglect this aspect and provide data at the level of individual music tracks. We aim to fill this gap by providing Music4All Artist and Album (Music4All A+A), a dataset for multimodal MIR tasks based on music artists and albums. Music4All A+A is built on top of the Music4All-Onion dataset, an existing track-level dataset for MIR tasks. Music4All A+A provides metadata, genre labels, image representations, and textual descriptors for 6,741 artists and 19,511 albums. Furthermore, since Music4All A+A is built on top of Music4All-Onion, it allows access to other multimodal data at the track level, including user--item interaction data. This renders Music4All A+A suitable for a broad range of MIR tasks, including multimodal music recommendation, at several levels of granularity. To showcase the use of Music4All A+A, we carry out experiments on multimodal genre classification of artists and albums, including an analysis in missing-modality scenarios, and a quantitative comparison with genre classification in the movie domain. Our experiments show that images are more informative for classifying the genres of artists and albums, and that several multimodal models for genre classification struggle in generalizing across domains. We provide the code to reproduce our experiments at https://github.com/hcai-mms/Music4All-A-A, the dataset is linked in the repository and provided open-source under a CC BY-NC-SA 4.0 license.
- Abstract(参考訳): 音楽は、音声信号、歌詞、音楽ビデオクリップなど、様々なモダリティに関連する側面によって特徴づけられる。
このことは、ジャンル分類や自動タグ付けといった音楽情報検索(MIR)タスクのためのマルチモーダルデータセットや手法の開発を動機付けている。
音楽は、例えばアーティストや音楽アルバムのレベルでジャンルを定義するなど、様々なレベルの粒度で記述することができる。
しかし、マルチモーダルMIRのためのほとんどのデータセットは、この側面を無視し、個々の音楽トラックのレベルでデータを提供する。
音楽アーティストやアルバムに基づくマルチモーダルMIRタスクのためのデータセットであるMusic4All Artist and Album(Music4All A+A)を提供することで,このギャップを埋めることを目指している。
Music4All A+Aは、既存のMIRタスク用のトラックレベルのデータセットであるMusic4All-Onionデータセット上に構築されている。
Music4All A+Aは6,741人のアーティストと19,511枚のアルバムにメタデータ、ジャンルラベル、画像表現、テキスト記述を提供する。
さらに、Music4All A+AはMusic4All-Onion上に構築されているため、ユーザとイテムのインタラクションデータを含む、トラックレベルでの他のマルチモーダルデータへのアクセスが可能になる。
これは、マルチモーダル音楽レコメンデーションを含む幅広いMIRタスクに適したMusic4All A+Aを、様々なレベルの粒度でレンダリングする。
Music4All A+Aの使用を実演するため,アーティストやアルバムのマルチモーダルジャンル分類実験を行い,欠落したモダリティシナリオの分析,映画領域のジャンル分類との比較を行った。
実験の結果、画像はアーティストやアルバムのジャンルを分類する上でより有益であることが示され、また、ジャンル分類のための複数のマルチモーダルモデルがドメイン間の一般化に苦慮していることが判明した。
我々は、https://github.com/hcai-mms/Music4All-Aで実験を再現するコードを提供し、データセットはリポジトリにリンクされ、CC BY-NC-SA 4.0ライセンスでオープンソースとして提供される。
関連論文リスト
- JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、Jamendoプラットフォームから362,000以上のフリーライセンスのインストゥルメンタルトラックを備えた、大規模なミュージックキャプションデータセットである。
データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文 参考訳(メタデータ) (2025-02-11T11:12:19Z) - PDMX: A Large-Scale Public Domain MusicXML Dataset for Symbolic Music Processing [43.61383132919089]
PDMX: スコア共有フォーラムMuseScoreから収集した250万以上のパブリックドメイン MusicXML スコアからなる大規模なオープンソースデータセット。
このデータセットは、私たちの知識にとって最大の著作権のないシンボリック音楽データセットです。
我々は、PDMXの異なる代表部分集合が下流モデルにおける異なる挙動にどのように寄与するかを評価するマルチトラック音楽生成実験を行う。
論文 参考訳(メタデータ) (2024-09-17T01:48:42Z) - Benchmarking Sub-Genre Classification For Mainstage Dance Music [6.042939894766715]
新しいデータセットとベースラインを特徴とする新しいベンチマークを導入する。
我々のデータセットは、グローバル音楽祭でDJをリードする人々が行った最近のメインステージライブセットの多様性を反映するため、サブジャンルの範囲を広げている。
このベンチマークは、音楽レコメンデーション、DJセットキュレーション、インタラクティブマルチメディアシステムなどのアプリケーションをサポートし、ビデオデモを提供している。
論文 参考訳(メタデータ) (2024-09-10T17:54:00Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - A Novel Multi-Task Learning Method for Symbolic Music Emotion
Recognition [76.65908232134203]
Symbolic Music Emotion Recognition(SMER)は、MIDIやMusicXMLなどのシンボリックデータから音楽の感情を予測すること。
本稿では、感情認識タスクを他の感情関連補助タスクに組み込む、SMERのためのシンプルなマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-15T07:45:10Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。