論文の概要: Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores
- arxiv url: http://arxiv.org/abs/2511.20697v1
- Date: Mon, 24 Nov 2025 06:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.761205
- Title: Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores
- Title(参考訳): 音楽スコア理解ベンチマーク:大規模言語モデルの完全スコア理解の評価
- Authors: Congren Dai, Yue Yang, Krinos Li, Huichi Zhou, Shijie Liang, Zhang Bo, Enyang Liu, Ge Jin, Hongran An, Haosen Zhang, Peiyuan Jing, KinHei Lee, Zhenxuan Zhang, Xiaobing Li, Maosong Sun,
- Abstract要約: 音楽スコア理解ベンチマーク(MSU-Bench)は,スコアレベルの音楽理解を評価するための大規模人為的なベンチマークである。
MSU-Benchは、Bach、Beethoven、Chopin、Debussyなどの作品から抽出された1,800の生成的質問応答(QA)ペアで構成されている。
急激なモダリティギャップ, 脆弱なレベルワイドの成功率, マルチレベルの正確性を維持することの難しさを明らかにした。
- 参考スコア(独自算出の注目度): 32.722200962820125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding complete musical scores requires reasoning over symbolic structures such as pitch, rhythm, harmony, and form. Despite the rapid progress of Large Language Models (LLMs) and Vision-Language Models (VLMs) in natural language and multimodal tasks, their ability to comprehend musical notation remains underexplored. We introduce Musical Score Understanding Benchmark (MSU-Bench), the first large-scale, human-curated benchmark for evaluating score-level musical understanding across both textual (ABC notation) and visual (PDF) modalities. MSU-Bench comprises 1,800 generative question-answer (QA) pairs drawn from works spanning Bach, Beethoven, Chopin, Debussy, and others, organised into four progressive levels of comprehension: Onset Information, Notation & Note, Chord & Harmony, and Texture & Form. Through extensive zero-shot and fine-tuned evaluations of over 15+ state-of-the-art (SOTA) models, we reveal sharp modality gaps, fragile level-wise success rates, and the difficulty of sustaining multilevel correctness. Fine-tuning markedly improves performance in both modalities while preserving general knowledge, establishing MSU-Bench as a rigorous foundation for future research at the intersection of Artificial Intelligence (AI), musicological, and multimodal reasoning.
- Abstract(参考訳): 完全な楽譜を理解するには、ピッチ、リズム、ハーモニー、フォームといった象徴的な構造を推論する必要がある。
自然言語やマルチモーダルタスクにおけるLarge Language Models(LLM)とVision-Language Models(VLM)の急速な進歩にもかかわらず、音楽表記の理解能力はいまだに未熟である。
音楽スコア理解ベンチマーク(MSU-Bench)は,テキスト(ABC表記)と視覚(PDF)の両モードでスコアレベルの音楽理解を評価するための,最初の大規模かつ人為的なベンチマークである。
MSU-Benchは、Bach、Beethoven、Chopin、Debussyなどの作品から抽出された1,800の生成的質問応答(QA)ペアで構成され、オンセット情報、Notation & Note、コード&ハーモニー、テクスチャ&フォームの4つのプログレッシブなレベルに編成されている。
我々は、15以上の最先端(SOTA)モデルの広範囲なゼロショットおよび微調整評価を通じて、鋭いモダリティギャップ、脆弱なレベルワイドの成功率、マルチレベル正当性を維持することの難しさを明らかにする。
ファインチューニングは、一般的な知識を維持しながら、両方のモダリティのパフォーマンスを著しく向上させ、MSU-Benchを人工知能(AI)、音楽学、マルチモーダル推論の交差点における将来の研究のための厳格な基礎として確立した。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T11:10:57Z) - ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following [8.668922435342054]
我々は,テキストベースのABC表記スコアの理解と指示追従機能に特化した,最初のオープンソースベンチマークであるABC-Evalを提案する。
10のサブタスクにまたがる1,086のテストサンプルからなり、基本的な音楽構文理解から複雑なシーケンスレベルの推論まで、シナリオをカバーしている。
ABC-Eval 上での7つの最先端 LLM の評価を行い,既存のモデルのシンボリック音楽処理能力に顕著な限界が認められた。
論文 参考訳(メタデータ) (2025-09-27T14:56:20Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark [42.58439306999647]
MMSUは、47の異なるタスクにまたがって、5000の厳密にキュレートされたオーディオクエスト・アンサートレットで構成されている。
我々は、音声学、韻律、修辞学、構文学、意味論、パラ言語学を含む言語理論のベンチマークを定めている。
MMSUは、音声言語理解の包括的評価のための新しい標準を確立する。
論文 参考訳(メタデータ) (2025-06-05T09:09:36Z) - NOTA: Multimodal Music Notation Understanding for Visual Large Language Model [38.26693446133213]
大規模な総合マルチモーダル音楽表記データセットであるNOTAを提案する。
世界の3つの地域からの1,019,237のレコードで構成され、3つのタスクを含んでいる。
このデータセットに基づいて,音楽表記の視覚的大言語モデルであるNotaGPTを訓練した。
論文 参考訳(メタデータ) (2025-02-17T16:39:19Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。