論文の概要: Evaluating Multimodal Large Language Models on Core Music Perception Tasks
- arxiv url: http://arxiv.org/abs/2510.22455v1
- Date: Sat, 25 Oct 2025 23:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.207614
- Title: Evaluating Multimodal Large Language Models on Core Music Perception Tasks
- Title(参考訳): コア音楽知覚課題におけるマルチモーダル大言語モデルの評価
- Authors: Brandon James Carone, Iran R. Roman, Pablo Ripollés,
- Abstract要約: 我々は,3つの中核的音楽スキルであるシンコレーション・スコーリング,トランスポジション検出,コード品質同定の3つのSOTA LLMをベンチマークした。
後者では,LLMとシンボリック・ソルバを組み合わせたフレームワークであるLogicLMを音楽に適用し,構造化推論を行う。
モデルはMIDIでは天井付近で実行するが、オーディオでは精度が低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (LLMs) claim "musical understanding" via evaluations that conflate listening with score reading. We benchmark three SOTA LLMs (Gemini 2.5 Pro, Gemini 2.5 Flash, and Qwen2.5-Omni) across three core music skills: Syncopation Scoring, Transposition Detection, and Chord Quality Identification. Moreover, we separate three sources of variability: (i) perceptual limitations (audio vs. MIDI inputs), (ii) exposure to examples (zero- vs. few-shot manipulations), and (iii) reasoning strategies (Standalone, CoT, LogicLM). For the latter we adapt LogicLM, a framework combining LLMs with symbolic solvers to perform structured reasoning, to music. Results reveal a clear perceptual gap: models perform near ceiling on MIDI but show accuracy drops on audio. Reasoning and few-shot prompting offer minimal gains. This is expected for MIDI, where performance reaches saturation, but more surprising for audio, where LogicLM, despite near-perfect MIDI accuracy, remains notably brittle. Among models, Gemini Pro achieves the highest performance across most conditions. Overall, current systems reason well over symbols (MIDI) but do not yet "listen" reliably from audio. Our method and dataset make the perception-reasoning boundary explicit and offer actionable guidance for building robust, audio-first music systems.
- Abstract(参考訳): LLM(Multimodal Large Language Models)は「音楽的理解」を評価を通じて主張する。
我々は,3種類のSOTA LLM(Gemini 2.5 Pro,Gemini 2.5 Flash,Qwen2.5-Omni)を同期スコア,トランスポジション検出,コード品質同定の3つのコア音楽スキルでベンチマークした。
さらに、変数のソースを3つ分けます。
(i)知覚的制限(音声対MIDI入力)
(二 例への露出(ゼロ対小ショット操作)及び
(iii)推論戦略(Standalone、CoT、LogicLM)
後者では,LLMとシンボリック・ソルバを組み合わせたフレームワークであるLogicLMを音楽に適用し,構造化推論を行う。
モデルはMIDIでは天井付近で実行するが、オーディオでは精度が低下する。
推論と数発のプロンプトは、最小限のゲインを提供する。
これは、パフォーマンスが飽和に達するMIDIに期待できるが、オーディオではより驚かされるが、LogicLMは、ほぼ完全なMIDI精度にもかかわらず、明らかに不安定である。
モデルの中では、Gemini Proは多くの条件で最高のパフォーマンスを達成している。
全体としては、現在のシステムはシンボル(MIDI)よりも優れているが、オーディオから確実に「リスト」されるわけではない。
提案手法とデータセットは、知覚推論境界を明確にし、ロバストでオーディオファーストな音楽システムを構築するための実用的なガイダンスを提供する。
関連論文リスト
- The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS [0.0]
本稿では,音楽理解・構造評価(MUSE)ベンチマークについて紹介する。
我々は、大規模なヒトベースライン(N0)に対して4つのSOTAモデルを評価する。
以上の結果から,SOTAの能力は多岐にわたることが判明した。
論文 参考訳(メタデータ) (2025-10-21T20:14:36Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks [0.0]
セクション境界検出のための人手によるMIDIデータセットを提案する。
第2に、固定長の音楽窓におけるセクション境界の存在を分類するために、深層学習モデルを訓練する。
本モデルではF1スコアの0.77を達成し,類似した音声に基づく教師あり学習手法を改良した。
論文 参考訳(メタデータ) (2025-09-20T07:52:08Z) - MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling [32.78044321881271]
音声合成のためのVALLEフレームワークであるMIDI-VALLEを提案する。
VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。
評価の結果,MIDI-VALLEは最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-11T12:28:20Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [47.965028296133426]
我々はLeLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデリングすることができる。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - Moonbeam: A MIDI Foundation Model Using Both Absolute and Relative Music Attributes [9.283206048560322]
Moonbeamは、シンボリック音楽のためのトランスフォーマーベースの基礎モデルである。
大量のMIDIデータを事前訓練し、合計81.6K時間の音楽と18億のトークンを収集する。
コードをオープンソース化し、事前訓練されたモデルを作成し、Githubでサンプルを生成しました。
論文 参考訳(メタデータ) (2025-05-21T14:17:25Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文 参考訳(メタデータ) (2021-12-17T04:15:42Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。