Fugu-MT 論文翻訳(概要): CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

論文の概要: CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following

arxiv url: http://arxiv.org/abs/2506.12285v2
Date: Fri, 27 Jun 2025 22:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 15:08:39.656582
Title: CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
Title（参考訳）: CMI-Bench: 音楽教育の評価のための総合ベンチマーク
Authors: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa,
Abstract要約: CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。 LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
参考スコア（独自算出の注目度）: 12.638115555721257
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.
Abstract（参考訳）: 音声テキスト大言語モデル(LLM)の最近の進歩は、音楽の理解と生成に新たな可能性をもたらしている。しかし、既存のベンチマークはスコープに限られており、しばしば実世界の音楽分析の複雑さを反映しない、単純化されたタスクや複数選択評価に依存している。 CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、音声テキストLLMを評価するために設計された、包括的な音楽命令に従うベンチマークである。ジャンル分類、感情回帰、感情タグ付け、楽器分類、ピッチ推定、キー検出、歌詞の書き起こし、メロディ抽出、ボーカルテクニック認識、楽器技術検出、音楽タグ付け、音楽キャプション、(ダウン)ビートトラッキングなどが含まれる。従来のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと整合した標準化された評価基準を採用し、教師付きアプローチとの直接的な互換性を確保する。 LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。実験の結果、LLMと教師付きモデルの間には、その文化、年代、性別のバイアスとともに大きなパフォーマンスギャップがあり、MIRタスクに対処する際の現在のモデルの可能性と限界を強調している。 CMI-Benchは、音楽学習の進歩を推進し、後続の音楽教育を評価するための統一的な基盤を確立している。

関連論文リスト

Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-08-02T03:33:47Z)
CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining [15.58671300364536]
本稿では,音楽類似性モデリングの指針となる,新しいクロスモーダルコントラスト学習フレームワークを提案する。高品質なテキストと音楽のペアリングデータの不足を克服するため,本稿では,デュアルソースデータ取得手法を提案する。実験により、提案されたフレームワークは既存のベンチマークよりも大幅にパフォーマンスが向上していることが示された。
論文参考訳（メタデータ） (2025-03-29T15:43:09Z)
Exploring GPT's Ability as a Judge in Music Understanding [6.5178028874627705]
我々は,大規模言語モデルに対して,音楽情報検索の問題を解決するために,系統的なプロンプトエンジニアリングアプローチを用いる。音楽データをシンボリック入力に変換し、3つの重要なMIRタスクにおいて、アノテーションエラーを検出するLLMの能力を評価する。提案手法は,提案する楽曲概念とLLMの楽曲推論の整合性を評価するために提案される。
論文参考訳（メタデータ） (2025-01-22T22:49:27Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models [63.53530525014976]
ZIQI-Evalは、大規模言語モデル(LLM)の音楽関連能力を評価するために設計されたベンチマークである。 ZIQI-Evalは10の主要なカテゴリと56のサブカテゴリをカバーし、14,000以上の精巧にキュレートされたデータエントリをカバーしている。その結果,全てのLLMはZIQI-Evalベンチマークでは性能が悪く,音楽能力の向上の余地が示唆された。
論文参考訳（メタデータ） (2024-06-22T16:24:42Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文参考訳（メタデータ） (2020-02-01T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。