論文の概要: ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following
- arxiv url: http://arxiv.org/abs/2509.23350v1
- Date: Sat, 27 Sep 2025 14:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.176643
- Title: ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following
- Title(参考訳): ABC-Eval: シンボリック音楽理解と指導のための大規模言語モデルのベンチマーク
- Authors: Jiahao Zhao, Yunjia Li, Wei Li, Kazuyoshi Yoshii,
- Abstract要約: 我々は,テキストベースのABC表記スコアの理解と指示追従機能に特化した,最初のオープンソースベンチマークであるABC-Evalを提案する。
10のサブタスクにまたがる1,086のテストサンプルからなり、基本的な音楽構文理解から複雑なシーケンスレベルの推論まで、シナリオをカバーしている。
ABC-Eval 上での7つの最先端 LLM の評価を行い,既存のモデルのシンボリック音楽処理能力に顕著な限界が認められた。
- 参考スコア(独自算出の注目度): 8.668922435342054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models continue to develop, the feasibility and significance of text-based symbolic music tasks have become increasingly prominent. While symbolic music has been widely used in generation tasks, LLM capabilities in understanding and reasoning about symbolic music remain largely underexplored. To address this gap, we propose ABC-Eval, the first open-source benchmark dedicated to the understanding and instruction-following capabilities in text-based ABC notation scores. It comprises 1,086 test samples spanning 10 sub-tasks, covering scenarios from basic musical syntax comprehension to complex sequence-level reasoning. Such a diverse scope poses substantial challenges to models' ability to handle symbolic music tasks. We evaluated seven state-of-the-art LLMs on ABC-Eval, and the results reveal notable limitations in existing models' symbolic music processing capabilities. Furthermore, the consistent performance of individual baselines across different sub-tasks supports the reliability of our benchmark.
- Abstract(参考訳): 大規模言語モデルの開発が進むにつれて、テキストベースのシンボリック・ミュージック・タスクの実現可能性と重要性が増している。
シンボリック・ミュージックは世代別タスクで広く使われているが、シンボリック・ミュージックについての理解と推論のLLM機能は、ほとんど探索されていない。
このギャップに対処するため、我々は、テキストベースのABC表記スコアの理解と指示追従機能に特化した最初のオープンソースベンチマークであるABC-Evalを提案する。
10のサブタスクにまたがる1,086のテストサンプルからなり、基本的な音楽構文理解から複雑なシーケンスレベルの推論まで、シナリオをカバーしている。
このような多様なスコープは、象徴的な音楽タスクを扱うモデルの能力に重大な課題をもたらす。
ABC-Eval 上で7つの最先端 LLM の評価を行い,既存のモデルの記号的音楽処理能力に顕著な限界が認められた。
さらに、異なるサブタスクにわたる個々のベースラインの一貫性のあるパフォーマンスは、ベンチマークの信頼性を支持します。
関連論文リスト
- WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning [31.460197795186048]
我々はWildScoreを紹介した。WildScoreは世界初のマルチモーダル・シンボリック・ミュージック・推論と分析のベンチマークである。
WildScoreの各インスタンスは、本物の音楽作品から派生しており、ユーザ生成の真正な質問が伴っている。
我々は,MLLMの記号的音楽理解の制御とスケーラブルな評価を可能にした。
論文 参考訳(メタデータ) (2025-09-05T01:54:50Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Large Language Models' Internal Perception of Symbolic Music [3.9901365062418317]
大規模言語モデル(LLM)は、自然言語における文字列間の関係のモデル化に優れている。
本稿では,テキストのプロンプトからシンボリック音楽データを生成することで,LLMが音楽概念をどのように表現するかを検討する。
論文 参考訳(メタデータ) (2025-07-17T05:48:45Z) - Semantic-Aware Interpretable Multimodal Music Auto-Tagging [1.8541450825478398]
本稿では,音楽に有意義なマルチモーダル特徴群を利用した自動タグ付けのための解釈可能なフレームワークを提案する。
提案手法は,意思決定プロセスのより深い理解を提供しながら,競争力のあるタグ付け性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T19:15:48Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。