論文の概要: WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
- arxiv url: http://arxiv.org/abs/2509.04744v1
- Date: Fri, 05 Sep 2025 01:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.446715
- Title: WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning
- Title(参考訳): WildScore: シンボリック音楽推論におけるMLLMのベンチマーク
- Authors: Gagan Mundada, Yash Vishe, Amit Namburi, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu,
- Abstract要約: 我々はWildScoreを紹介した。WildScoreは世界初のマルチモーダル・シンボリック・ミュージック・推論と分析のベンチマークである。
WildScoreの各インスタンスは、本物の音楽作品から派生しており、ユーザ生成の真正な質問が伴っている。
我々は,MLLMの記号的音楽理解の制御とスケーラブルな評価を可能にした。
- 参考スコア(独自算出の注目度): 31.460197795186048
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various vision-language tasks. However, their reasoning abilities in the multimodal symbolic music domain remain largely unexplored. We introduce WildScore, the first in-the-wild multimodal symbolic music reasoning and analysis benchmark, designed to evaluate MLLMs' capacity to interpret real-world music scores and answer complex musicological queries. Each instance in WildScore is sourced from genuine musical compositions and accompanied by authentic user-generated questions and discussions, capturing the intricacies of practical music analysis. To facilitate systematic evaluation, we propose a systematic taxonomy, comprising both high-level and fine-grained musicological ontologies. Furthermore, we frame complex music reasoning as multiple-choice question answering, enabling controlled and scalable assessment of MLLMs' symbolic music understanding. Empirical benchmarking of state-of-the-art MLLMs on WildScore reveals intriguing patterns in their visual-symbolic reasoning, uncovering both promising directions and persistent challenges for MLLMs in symbolic music reasoning and analysis. We release the dataset and code.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、様々な視覚言語タスクにまたがる印象的な能力を示している。
しかし、マルチモーダル・シンボリック・ミュージック・ドメインにおける彼らの推論能力はほとんど解明されていない。
実世界の音楽の楽譜を解釈し、複雑な音楽的クエリーに応答するMLLMの能力を評価するために設計された、最初のWildScoreというマルチモーダル・シンボリック・ミュージック・推論と分析のベンチマークを紹介した。
WildScoreの各インスタンスは、本物の音楽作品から派生しており、ユーザ生成の真正な質問や議論が伴い、実用的な音楽分析の複雑さを捉えている。
体系的な評価を容易にするため,高レベル・微粒な音楽オントロジーを含む系統分類法を提案する。
さらに,複雑な音楽推論を複数選択質問応答として構成し,MLLMのシンボリック音楽理解の制御とスケーラブルな評価を可能にする。
WildScoreの最先端MLLMの実証的なベンチマークでは、視覚的シンボリック推論における興味深いパターンが示され、シンボリック音楽の推論と分析において、MLLMにとって有望な方向と永続的な課題の両方が明らかになった。
データセットとコードをリリースします。
関連論文リスト
- MusiXQA: Advancing Visual Music Understanding in Multimodal Large Language Models [45.2560094901105]
MusiXQAは、音楽シート理解におけるMLLMの評価と進歩のための、最初の包括的なデータセットである。
我々は、データセットに微調整されたMLLMであるPhi-3-MusiXを開発し、GPT法よりも大きな性能向上を実現した。
論文 参考訳(メタデータ) (2025-06-28T20:46:47Z) - CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文 参考訳(メタデータ) (2025-06-14T00:18:44Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Can LLMs "Reason" in Music? An Evaluation of LLMs' Capability of Music Understanding and Generation [31.825105824490464]
シンボリック・ミュージック(英: Symbolic Music)は、言語に似た、離散的な記号で符号化される。
近年,大言語モデル (LLM) を記号的音楽領域に適用する研究が進められている。
本研究は, シンボリック・ミュージック・プロセッシングにおけるLLMの能力と限界について, 徹底的に検討する。
論文 参考訳(メタデータ) (2024-07-31T11:29:46Z) - The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models [63.53530525014976]
ZIQI-Evalは、大規模言語モデル(LLM)の音楽関連能力を評価するために設計されたベンチマークである。
ZIQI-Evalは10の主要なカテゴリと56のサブカテゴリをカバーし、14,000以上の精巧にキュレートされたデータエントリをカバーしている。
その結果,全てのLLMはZIQI-Evalベンチマークでは性能が悪く,音楽能力の向上の余地が示唆された。
論文 参考訳(メタデータ) (2024-06-22T16:24:42Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。