論文の概要: Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning
- arxiv url: http://arxiv.org/abs/2509.04059v2
- Date: Fri, 26 Sep 2025 05:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 16:35:18.983292
- Title: Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning
- Title(参考訳): AIミュージシャンを目指して : 楽音推論のための楽譜問題の合成
- Authors: Zhilin Wang, Zhe Yang, Yun Luo, Yafu Li, Xiaoye Qu, Ziqian Qiao, Haoran Zhang, Runzhe Zhan, Derek F. Wong, Jizhe Zhou, Yu Cheng,
- Abstract要約: 本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
- 参考スコア(独自算出の注目度): 69.78158549955384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing the ability of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) to interpret sheet music is a crucial step toward building AI musicians. However, current research lacks both evaluation benchmarks and training data for sheet music reasoning. Inspired by mathematics, where simple operations yield infinite verifiable problems, we introduce a novel approach that treats core music theory rules, such as those governing beats and intervals, as programmatic functions to systematically synthesize a vast and diverse corpus of sheet music reasoning problems. This approach allows us to introduce a data synthesis framework that generates verifiable sheet music questions in both textual and visual modalities, leading to the Synthetic Sheet Music Reasoning Benchmark (SSMR-Bench) and a complementary training set. Evaluation results on SSMR-Bench highlight the key role reasoning plays in interpreting sheet music, while also pointing out the ongoing challenges in understanding sheet music in a visual format. By leveraging synthetic data for RLVR, all models show significant improvements on the SSMR-Bench. Additionally, they also demonstrate considerable advancements on previously established human-crafted benchmarks, such as MusicTheoryBench and the music subset of MMMU. Finally, our results show that the enhanced reasoning ability can also facilitate music composition.
- Abstract(参考訳): 楽譜を解釈する大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の能力を高めることは、AIミュージシャンを構築するための重要なステップである。
しかし,本研究では,楽譜推論のための評価ベンチマークとトレーニングデータの両方が欠落している。
単純な操作が無限に検証可能な問題を生み出す数学に触発されて、我々は、楽譜と間隔を管理するような中核的な音楽理論ルールを、広範囲で多様な楽譜推論問題のコーパスを体系的に合成するプログラム機能として扱う新しいアプローチを導入する。
提案手法では,テキストと視覚の両方で検証可能なシート音楽質問を生成するデータ合成フレームワークを導入し,SSMR-Bench(Synthetic Sheet Music Reasoning Benchmark)と補完的なトレーニングセットを実現する。
SSMR-Benchの評価結果は,楽譜の解釈において重要な役割を担いながら,楽譜を視覚的に理解する上での課題も指摘している。
RLVRの合成データを活用することで、すべてのモデルがSSMR-Benchで大幅に改善されている。
さらに、MusicTheoryBenchやMMMUの音楽サブセットなど、以前に確立された人為的なベンチマークにもかなりの進歩が見られる。
最後に,本研究の結果から,聴取能力の向上が音楽の作曲を促進できることが示唆された。
関連論文リスト
- Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T11:10:57Z) - Decoding Musical Origins: Distinguishing Human and AI Composers [0.6246322794612152]
YNoteは、新しい機械学習フレンドリーな音楽表記システムである。
我々は、音楽が人間によって構成されているかどうかを識別できる効果的な分類モデルを訓練する。
このモデルは98.25%の精度を達成し、YNoteが十分なスタイリスティックな情報を保持することを示すことに成功した。
論文 参考訳(メタデータ) (2025-09-14T17:50:33Z) - CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文 参考訳(メタデータ) (2025-06-14T00:18:44Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - Optical Music Recognition: State of the Art and Major Challenges [0.0]
光音楽認識(OMR)は、楽譜を機械可読形式に変換することを目的としている。
書き起こされたコピーは、ミュージシャンが楽譜の写真を撮って作曲、演奏、編集を行えるようにする。
近年,従来のコンピュータビジョン技術から深層学習手法への移行が進んでいる。
論文 参考訳(メタデータ) (2020-06-14T12:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。