Fugu-MT 論文翻訳(概要): HumMusQA: A Human-written Music Understanding QA Benchmark Dataset

論文の概要: HumMusQA: A Human-written Music Understanding QA Benchmark Dataset

arxiv url: http://arxiv.org/abs/2603.27877v1
Date: Sun, 29 Mar 2026 21:33:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.154286
Title: HumMusQA: A Human-written Music Understanding QA Benchmark Dataset
Title（参考訳）: HumMusQA: 人書きによるQAベンチマークデータセット
Authors: Benno Weck, Pablo Puentes, Andrea Poltronieri, Satyajeet Prabhu, Dmitry Bogdanov,
Abstract要約: 本稿では,音楽教育の専門家による手書き質問320件の新しいデータセットを提案する。このデータセットの使用を実証するため、6つの最先端のLALMをベンチマークし、一様ショートカットに対するロバスト性をテストした。
参考スコア（独自算出の注目度）: 2.7761207021407217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The evaluation of music understanding in Large Audio-Language Models (LALMs) requires a rigorously defined benchmark that truly tests whether models can perceive and interpret music, a standard that current data methodologies frequently fail to meet. This paper introduces a meticulously structured approach to music evaluation, proposing a new dataset of 320 hand-written questions curated and validated by experts with musical training, arguing that such focused, manual curation is superior for probing complex audio comprehension. To demonstrate the use of the dataset, we benchmark six state-of-the-art LALMs and additionally test their robustness to uni-modal shortcuts.
Abstract（参考訳）: LALM(Large Audio-Language Models)における音楽理解の評価には厳格に定義されたベンチマークが必要である。本稿では,音楽教育の専門家による手書き質問320件の新しいデータセットを提案するとともに,このような集中型手動キュレーションが複雑な音声理解の探索に優れていることを論じる。このデータセットの使用を実証するため、6つの最先端のLALMをベンチマークし、一様ショートカットに対するロバスト性をテストした。

関連論文リスト

Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。 SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文参考訳（メタデータ） (2025-09-04T09:42:17Z)
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。 LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文参考訳（メタデータ） (2025-06-14T00:18:44Z)
Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文参考訳（メタデータ） (2024-09-17T14:44:49Z)
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music [21.380568107727207]
中国語で書かれた最初のオープンソース音楽記述ベンチマークであるMuChinを紹介する。 MuChinは、音楽の理解と記述において、マルチモーダルな大規模言語モデルの性能を評価するように設計されている。ベンチマークに関連するすべてのデータは、スコアコードと詳細な付録とともに、オープンソース化されている。
論文参考訳（メタデータ） (2024-02-15T10:55:01Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。