論文の概要: CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
- arxiv url: http://arxiv.org/abs/2506.12285v2
- Date: Fri, 27 Jun 2025 22:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.656582
- Title: CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
- Title(参考訳): CMI-Bench: 音楽教育の評価のための総合ベンチマーク
- Authors: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa,
- Abstract要約: CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
- 参考スコア(独自算出の注目度): 12.638115555721257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.
- Abstract(参考訳): 音声テキスト大言語モデル(LLM)の最近の進歩は、音楽の理解と生成に新たな可能性をもたらしている。
しかし、既存のベンチマークはスコープに限られており、しばしば実世界の音楽分析の複雑さを反映しない、単純化されたタスクや複数選択評価に依存している。
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、音声テキストLLMを評価するために設計された、包括的な音楽命令に従うベンチマークである。
ジャンル分類、感情回帰、感情タグ付け、楽器分類、ピッチ推定、キー検出、歌詞の書き起こし、メロディ抽出、ボーカルテクニック認識、楽器技術検出、音楽タグ付け、音楽キャプション、(ダウン)ビートトラッキングなどが含まれる。
従来のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと整合した標準化された評価基準を採用し、教師付きアプローチとの直接的な互換性を確保する。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
実験の結果、LLMと教師付きモデルの間には、その文化、年代、性別のバイアスとともに大きなパフォーマンスギャップがあり、MIRタスクに対処する際の現在のモデルの可能性と限界を強調している。
CMI-Benchは、音楽学習の進歩を推進し、後続の音楽教育を評価するための統一的な基盤を確立している。
関連論文リスト
- CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction [28.66731946887381]
コンポジション・マルチモーダル・インストラクション(CMI)に基づく音楽報酬モデリングのための総合的なエコシステムを構築した。
まず,110kの擬似ラベル付きサンプルからなる大規模選好データセットであるCMI-Pref-Pseudoと,きめ細かなアライメント作業に適した高品質な人間アノテーション付きコーパスであるCMI-Prefを紹介する。
CMI-RewardBenchは,音楽性,テキスト・音楽的アライメント,コンストラクショナル・インストラクション・アライメントといった多種多様なサンプルの楽曲報酬モデルを評価する統一ベンチマークである。
論文 参考訳(メタデータ) (2026-02-28T12:10:58Z) - An Evaluation of Interleaved Instruction Tuning on Semantic Reasoning Performance in an Audio MLLM [15.340075567628466]
本研究は,プロンプト内で音声トークンをインターリーブするMLLMにおいて,インターリーブド・インストラクション・チューニングが与える影響について検討した。
その結果,ゼロショットインターリーブでも推論タスクの性能は向上するが,微調整が少なすぎると結果がさらに改善することがわかった。
論文 参考訳(メタデータ) (2025-11-04T03:54:55Z) - Factual and Musical Evaluation Metrics for Music Language Models [5.124350492915739]
音楽言語モデル(Music LM)は、マルチモーダル表現を利用して、音楽録音に関する自然言語クエリに答える。
Music LMは改善されていると報じられているが、現在の評価ではその答えが正しいかどうかを把握できない。
本研究では,(1)音楽領域に適応した音楽LMのより汎用的な評価基準を提案し,(2)音楽LMの応答の正しさを定量的に評価するための実測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T18:08:26Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。
我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。
また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-02T03:33:47Z) - CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.58671300364536]
本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。
高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。
実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-03-29T15:43:09Z) - Exploring GPT's Ability as a Judge in Music Understanding [6.5178028874627705]
我々は,大規模言語モデルに対して,音楽情報検索の問題を解決するために,系統的なプロンプトエンジニアリングアプローチを用いる。
音楽データをシンボリック入力に変換し、3つの重要なMIRタスクにおいて、アノテーションエラーを検出するLLMの能力を評価する。
提案手法は,提案する楽曲概念とLLMの楽曲推論の整合性を評価するために提案される。
論文 参考訳(メタデータ) (2025-01-22T22:49:27Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models [63.53530525014976]
ZIQI-Evalは、大規模言語モデル(LLM)の音楽関連能力を評価するために設計されたベンチマークである。
ZIQI-Evalは10の主要なカテゴリと56のサブカテゴリをカバーし、14,000以上の精巧にキュレートされたデータエントリをカバーしている。
その結果,全てのLLMはZIQI-Evalベンチマークでは性能が悪く,音楽能力の向上の余地が示唆された。
論文 参考訳(メタデータ) (2024-06-22T16:24:42Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。