論文の概要: CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
- arxiv url: http://arxiv.org/abs/2506.12285v2
- Date: Fri, 27 Jun 2025 22:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.656582
- Title: CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
- Title(参考訳): CMI-Bench: 音楽教育の評価のための総合ベンチマーク
- Authors: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa,
- Abstract要約: CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
- 参考スコア(独自算出の注目度): 12.638115555721257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.
- Abstract(参考訳): 音声テキスト大言語モデル(LLM)の最近の進歩は、音楽の理解と生成に新たな可能性をもたらしている。
しかし、既存のベンチマークはスコープに限られており、しばしば実世界の音楽分析の複雑さを反映しない、単純化されたタスクや複数選択評価に依存している。
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、音声テキストLLMを評価するために設計された、包括的な音楽命令に従うベンチマークである。
ジャンル分類、感情回帰、感情タグ付け、楽器分類、ピッチ推定、キー検出、歌詞の書き起こし、メロディ抽出、ボーカルテクニック認識、楽器技術検出、音楽タグ付け、音楽キャプション、(ダウン)ビートトラッキングなどが含まれる。
従来のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと整合した標準化された評価基準を採用し、教師付きアプローチとの直接的な互換性を確保する。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
実験の結果、LLMと教師付きモデルの間には、その文化、年代、性別のバイアスとともに大きなパフォーマンスギャップがあり、MIRタスクに対処する際の現在のモデルの可能性と限界を強調している。
CMI-Benchは、音楽学習の進歩を推進し、後続の音楽教育を評価するための統一的な基盤を確立している。
関連論文リスト
- CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.58671300364536]
本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。
高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。
実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-03-29T15:43:09Z) - Exploring GPT's Ability as a Judge in Music Understanding [6.5178028874627705]
我々は,大規模言語モデルに対して,音楽情報検索の問題を解決するために,系統的なプロンプトエンジニアリングアプローチを用いる。
音楽データをシンボリック入力に変換し、3つの重要なMIRタスクにおいて、アノテーションエラーを検出するLLMの能力を評価する。
提案手法は,提案する楽曲概念とLLMの楽曲推論の整合性を評価するために提案される。
論文 参考訳(メタデータ) (2025-01-22T22:49:27Z) - The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models [63.53530525014976]
ZIQI-Evalは、大規模言語モデル(LLM)の音楽関連能力を評価するために設計されたベンチマークである。
ZIQI-Evalは10の主要なカテゴリと56のサブカテゴリをカバーし、14,000以上の精巧にキュレートされたデータエントリをカバーしている。
その結果,全てのLLMはZIQI-Evalベンチマークでは性能が悪く,音楽能力の向上の余地が示唆された。
論文 参考訳(メタデータ) (2024-06-22T16:24:42Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。