論文の概要: CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
- arxiv url: http://arxiv.org/abs/2506.17818v1
- Date: Sat, 21 Jun 2025 21:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.600404
- Title: CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning
- Title(参考訳): CultureMERT: 異文化間音楽表現学習のための継続的な事前学習
- Authors: Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos,
- Abstract要約: CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。
650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
- 参考スコア(独自算出の注目度): 55.80320947983555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in music foundation models have improved audio representation learning, yet their effectiveness across diverse musical traditions remains limited. We introduce CultureMERT-95M, a multi-culturally adapted foundation model developed to enhance cross-cultural music representation learning and understanding. To achieve this, we propose a two-stage continual pre-training strategy that integrates learning rate re-warming and re-decaying, enabling stable adaptation even with limited computational resources. Training on a 650-hour multi-cultural data mix, comprising Greek, Turkish, and Indian music traditions, results in an average improvement of 4.9% in ROC-AUC and AP across diverse non-Western music auto-tagging tasks, surpassing prior state-of-the-art, with minimal forgetting on Western-centric benchmarks. We further investigate task arithmetic, an alternative approach to multi-cultural adaptation that merges single-culture adapted models in the weight space. Task arithmetic performs on par with our multi-culturally trained model on non-Western auto-tagging tasks and shows no regression on Western datasets. Cross-cultural evaluation reveals that single-culture models transfer with varying effectiveness across musical traditions, whereas the multi-culturally adapted model achieves the best overall performance. To support research on world music representation learning, we publicly release CultureMERT-95M and CultureMERT-TA-95M, fostering the development of more culturally aware music foundation models.
- Abstract(参考訳): 音楽基礎モデルの最近の進歩は、音声表現学習を改善しているが、その効果は、様々な音楽伝統において限られている。
異文化間の音楽表現学習と理解を高めるために開発された多文化的な基礎モデルであるCultureMERT-95Mを紹介する。
そこで本研究では,学習率の再ウォーミングと再復調を統合した2段階の継続事前学習戦略を提案する。
ギリシャ、トルコ、インド音楽の伝統を含む650時間の多文化データミックスのトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
さらに,重み空間における単一文化適応モデルをマージする,多文化適応への代替手法であるタスク算術についても検討する。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
クロスカルチャー評価では、シングルカルチャーモデルは音楽の伝統によって様々な効果で伝達されるのに対し、マルチカルチャーに適応したモデルは全体的なパフォーマンスを最高のものにしている。
本研究では,世界音楽表現学習の研究を支援するため,文化MERT-95Mと文化MERT-TA-95Mを公開し,より文化的に意識された音楽基盤モデルの開発を促進する。
関連論文リスト
- Universal Music Representations? Evaluating Foundation Models on World Music Corpora [65.72891334156706]
ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。
本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2025-06-20T15:06:44Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。