論文の概要: Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning
- arxiv url: http://arxiv.org/abs/2509.04059v2
- Date: Fri, 26 Sep 2025 05:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.983292
- Title: Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning
- Title(参考訳): AIミュージシャンを目指して : 楽音推論のための楽譜問題の合成
- Authors: Zhilin Wang, Zhe Yang, Yun Luo, Yafu Li, Xiaoye Qu, Ziqian Qiao, Haoran Zhang, Runzhe Zhan, Derek F. Wong, Jizhe Zhou, Yu Cheng,
- Abstract要約: 本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
- 参考スコア(独自算出の注目度): 69.78158549955384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing the ability of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) to interpret sheet music is a crucial step toward building AI musicians. However, current research lacks both evaluation benchmarks and training data for sheet music reasoning. Inspired by mathematics, where simple operations yield infinite verifiable problems, we introduce a novel approach that treats core music theory rules, such as those governing beats and intervals, as programmatic functions to systematically synthesize a vast and diverse corpus of sheet music reasoning problems. This approach allows us to introduce a data synthesis framework that generates verifiable sheet music questions in both textual and visual modalities, leading to the Synthetic Sheet Music Reasoning Benchmark (SSMR-Bench) and a complementary training set. Evaluation results on SSMR-Bench highlight the key role reasoning plays in interpreting sheet music, while also pointing out the ongoing challenges in understanding sheet music in a visual format. By leveraging synthetic data for RLVR, all models show significant improvements on the SSMR-Bench. Additionally, they also demonstrate considerable advancements on previously established human-crafted benchmarks, such as MusicTheoryBench and the music subset of MMMU. Finally, our results show that the enhanced reasoning ability can also facilitate music composition.
- Abstract(参考訳): 楽譜を解釈する大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の能力を高めることは、AIミュージシャンを構築するための重要なステップである。
しかし,本研究では,楽譜推論のための評価ベンチマークとトレーニングデータの両方が欠落している。
単純な操作が無限に検証可能な問題を生み出す数学に触発されて、我々は、楽譜と間隔を管理するような中核的な音楽理論ルールを、広範囲で多様な楽譜推論問題のコーパスを体系的に合成するプログラム機能として扱う新しいアプローチを導入する。
提案手法では,テキストと視覚の両方で検証可能なシート音楽質問を生成するデータ合成フレームワークを導入し,SSMR-Bench(Synthetic Sheet Music Reasoning Benchmark)と補完的なトレーニングセットを実現する。
SSMR-Benchの評価結果は,楽譜の解釈において重要な役割を担いながら,楽譜を視覚的に理解する上での課題も指摘している。
RLVRの合成データを活用することで、すべてのモデルがSSMR-Benchで大幅に改善されている。
さらに、MusicTheoryBenchやMMMUの音楽サブセットなど、以前に確立された人為的なベンチマークにもかなりの進歩が見られる。
最後に,本研究の結果から,聴取能力の向上が音楽の作曲を促進できることが示唆された。
関連論文リスト
- CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文 参考訳(メタデータ) (2025-06-14T00:18:44Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。
書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。
近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文 参考訳(メタデータ) (2020-06-14T12:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。