論文の概要: Advancing the Foundation Model for Music Understanding
- arxiv url: http://arxiv.org/abs/2508.01178v1
- Date: Sat, 02 Aug 2025 03:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.744442
- Title: Advancing the Foundation Model for Music Understanding
- Title(参考訳): 音楽理解のための基礎モデルの改善
- Authors: Yi Jiang, Wei Wang, Xianwen Guo, Huiyun Liu, Hanrui Wang, Youri Xu, Haoqi Gu, Zhongqian Xie, Chuanjiang Luo,
- Abstract要約: 総合音楽理解のための基礎モデル MuFun を導入する。
我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。
また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 9.210248657997687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Music Information Retrieval (MIR) is fragmented, with specialized models excelling at isolated tasks. In this work, we challenge this paradigm by introducing a unified foundation model named MuFun for holistic music understanding. Our model features a novel architecture that jointly processes instrumental and lyrical content, and is trained on a large-scale dataset covering diverse tasks such as genre classification, music tagging, and question answering. To facilitate robust evaluation, we also propose a new benchmark for multi-faceted music understanding called MuCUE (Music Comprehensive Understanding Evaluation). Experiments show our model significantly outperforms existing audio large language models across the MuCUE tasks, demonstrating its state-of-the-art effectiveness and generalization ability.
- Abstract(参考訳): 音楽情報検索(MIR)の分野は断片化されており、孤立したタスクにおいて優れた専門モデルがある。
本研究では,このパラダイムに対して,総合的な音楽理解のための基礎モデル MuFun を導入することで,そのパラダイムに挑戦する。
本モデルでは,楽器コンテンツと歌詞コンテンツを共同処理し,ジャンル分類,音楽タグ付け,質問応答などの多様なタスクをカバーする大規模データセットで学習する。
また,ロバストな評価を容易にするために,MuCUE (Music Comprehensive Understanding Evaluation) と呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
実験により,MucUEタスク全体にわたって既存の音声大言語モデルよりも優れた性能を示し,その最先端の有効性と一般化能力を示す。
関連論文リスト
- TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure [8.721294663967305]
ディープ・ミュージック・ジェネレーションにおける新しいアプローチとしてTOMI(Transforming and Organizing Music Ideas)を紹介する。
ビデオクリップ(短い音声またはMIDIセグメント)、セクション(時間的位置)、トラック(構造層)、変換によって特徴付けられる、スパースな4次元空間を介して、多トラック合成プロセスを表現する。
本モデルでは,マルチトラックの電子楽曲を全曲構造で生成することが可能であり,TOMIモデルとREAPERデジタルオーディオワークステーションをさらに統合する。
論文 参考訳(メタデータ) (2025-06-29T05:15:41Z) - Universal Music Representations? Evaluating Foundation Models on World Music Corpora [65.72891334156706]
ファンデーションモデルは音楽情報検索に革命をもたらしたが、一般化する能力については疑問が残る。
本稿では,6つの音楽コーパスにまたがる5つの最先端オーディオ基礎モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2025-06-20T15:06:44Z) - Music's Multimodal Complexity in AVQA: Why We Need More than General Multimodal LLMs [24.215093830868813]
Music Audio-Visual Question Answeringは、連続的で層密なオーディオ視覚コンテンツでユニークな課題を提示する。
本稿では,専門的な入力処理,専用の時空間設計を取り入れたアーキテクチャ,音楽固有のモデリング戦略が,この分野の成功に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-05-27T02:31:24Z) - A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。