論文の概要: GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.00371v1
- Date: Fri, 01 May 2026 03:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.835343
- Title: GaMMA: Towards Joint Global-Temporal Music Understanding in Large Multimodal Models
- Title(参考訳): GaMMA:大規模マルチモーダルモデルにおけるグローバル・テンポラル音楽の同時理解を目指して
- Authors: Zuyao You, Zhesong Yu, Mingyu Liu, Bilei Zhu, Yuan Wan, Zuxuan Wu,
- Abstract要約: GaMMAは、包括的な音楽コンテンツ理解を実現するために設計された大型マルチモーダルモデル(LMM)である。
オーディオエンコーダをエキスパートの混合方式で組み込むことで、GaMMAは時系列と非時系列の両方の音楽理解タスクを効果的に統合する。
当社のアプローチでは、大規模にキュレートされたデータセットとプログレッシブトレーニングパイプラインを組み合わせることで、音楽理解の境界を効果的に推し進める。
- 参考スコア(独自算出の注目度): 55.49773230684554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose GaMMA, a state-of-the-art (SoTA) large multimodal model (LMM) designed to achieve comprehensive musical content understanding. GaMMA inherits the streamlined encoder-decoder design of LLaVA, enabling effective cross-modal learning between music and language. By incorporating audio encoders in a mixture-of-experts manner, GaMMA effectively unifies both time-series and non-time-series music understanding tasks within one set of parameters. Our approach combines carefully curated datasets at scale with a progressive training pipeline, effectively pushing the boundaries of music understanding via pretraining, supervised fine-tuning (SFT), and reinforcement learning (RL). To comprehensively assess both temporal and non-temporal capability of music LMMs, we introduce MusicBench, the largest music-oriented benchmark, comprising 3,739 human-curated multiple-choice questions covering diverse aspects of musical understanding. Extensive experiments demonstrate that GaMMA establishes new SoTA in the music domain, achieving 79.1% accuracy on MuchoMusic, 79.3% on MusicBench-Temporal, and 81.3% on MusicBench-Global, consistently outperforming previous methods.
- Abstract(参考訳): 本稿では,総合的な音楽コンテンツ理解を実現するために,最先端(SoTA)大規模マルチモーダルモデル(LMM)であるGaMMAを提案する。
GaMMAはLLaVAの合理化エンコーダデコーダ設計を継承し、音楽と言語間の効果的なクロスモーダル学習を実現する。
オーディオエンコーダをエキスパートの混合方式で組み込むことで、GaMMAは、時系列と非時系列の両方の音楽理解タスクを、1組のパラメータで効果的に統一する。
提案手法は、大規模にキュレートされたデータセットとプログレッシブトレーニングパイプラインを組み合わせることで、事前学習、教師付き微調整(SFT)、強化学習(RL)による音楽理解の境界を効果的に推し進める。
音楽LMMの時間的能力と非時間的能力の両方を包括的に評価するために,音楽理解の多様な側面を網羅した3,739人の人間による複数選択質問を含む,最大の音楽指向ベンチマークであるMusicBenchを紹介した。
大規模な実験により、GaMMAは音楽分野での新しいSoTAを確立し、MuchoMusicで79.1%の精度、MusicBench-Temporalで79.3%、MusicBench-Globalで81.3%の精度を達成した。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。
我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。
また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-02T03:33:47Z) - DeepResonance: Enhancing Multimodal Music Understanding via Music-centric Multi-way Instruction Tuning [32.19855680723024]
DeepResonanceはマルチウェイインストラクションチューニングによって微調整されたマルチモーダル音楽理解モデルである。
我々は、DeepResonanceが視覚的およびテキスト的音楽特徴コンテンツを統合できるように設計されたデータセットを構築する。
本モデルは6つの音楽理解課題にまたがる最先端の演奏を実現する。
論文 参考訳(メタデータ) (2025-02-18T08:09:42Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Contrastive Learning of Musical Representations [0.0]
SimCLRを音楽領域に導入し、音楽の生の波形の自己監督学習のためのフレームワークを形成する:CLMR。
CLMRの表現はドメイン外のデータセットで転送可能であることを示し、重要な音楽知識を捉えていることを示す。
音楽における自己教師付き学習の促進と今後の研究のために,本論文のすべての実験の事前学習モデルとソースコードをgithubに公開する。
論文 参考訳(メタデータ) (2021-03-17T02:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。