論文の概要: Universal Music Representations? Evaluating Foundation Models on World Music Corpora
- arxiv url: http://arxiv.org/abs/2506.17055v1
- Date: Fri, 20 Jun 2025 15:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.498738
- Title: Universal Music Representations? Evaluating Foundation Models on World Music Corpora
- Title(参考訳): ユニバーサル音楽表現 : 世界音楽コーパスにおける基礎モデルの評価
- Authors: Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos,
- Abstract要約: ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。
本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
- 参考スコア(独自算出の注目度): 65.72891334156706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have revolutionized music information retrieval, but questions remain about their ability to generalize across diverse musical traditions. This paper presents a comprehensive evaluation of five state-of-the-art audio foundation models across six musical corpora spanning Western popular, Greek, Turkish, and Indian classical traditions. We employ three complementary methodologies to investigate these models' cross-cultural capabilities: probing to assess inherent representations, targeted supervised fine-tuning of 1-2 layers, and multi-label few-shot learning for low-resource scenarios. Our analysis shows varying cross-cultural generalization, with larger models typically outperforming on non-Western music, though results decline for culturally distant traditions. Notably, our approaches achieve state-of-the-art performance on five out of six evaluated datasets, demonstrating the effectiveness of foundation models for world music understanding. We also find that our targeted fine-tuning approach does not consistently outperform probing across all settings, suggesting foundation models already encode substantial musical knowledge. Our evaluation framework and benchmarking results contribute to understanding how far current models are from achieving universal music representations while establishing metrics for future progress.
- Abstract(参考訳): ファンデーションモデルは音楽情報検索に革命をもたらしたが、様々な音楽の伝統をまたいで一般化する能力について疑問が残る。
本稿では、西洋のポピュラー音楽、ギリシャ音楽、トルコ音楽、インドの伝統にまたがる6つの音楽コーパスを対象に、5つの最先端オーディオ基礎モデルの包括的評価を行う。
提案手法は,3つの補完的手法を用いて,これらのモデルのクロスカルチャー機能について検討する。
我々の分析では、異文化間の一般化が様々に見られ、より大規模なモデルは西洋音楽よりも優れているが、文化的に遠い伝統では減少する。
特に,6つの評価データセットのうち5つで最先端のパフォーマンスを達成し,世界音楽理解のための基礎モデルの有効性を実証した。
また、対象とする微調整アプローチは、すべての設定において常にプロービングを上回り、基礎モデルが既にかなりの音楽的知識を符号化していることを示唆している。
評価フレームワークとベンチマークの結果は,現在のモデルが音楽の普遍的な表現の達成から,将来的な発展のための指標を確立しながらどこまで遠いのかを理解するのに有効である。
関連論文リスト
- Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - From West to East: Who can understand the music of the others better? [91.78564268397139]
我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
論文 参考訳(メタデータ) (2023-07-19T07:29:14Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。