論文の概要: Factual and Musical Evaluation Metrics for Music Language Models
- arxiv url: http://arxiv.org/abs/2511.05550v1
- Date: Sun, 02 Nov 2025 18:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.426018
- Title: Factual and Musical Evaluation Metrics for Music Language Models
- Title(参考訳): 音楽言語モデルのための実測的・音楽的評価尺度
- Authors: Daniel Chenyu Lin, Michael Freeman, John Thickstun,
- Abstract要約: 音楽言語モデル(Music LM)は、マルチモーダル表現を利用して、音楽録音に関する自然言語クエリに答える。
Music LMは改善されていると報じられているが、現在の評価ではその答えが正しいかどうかを把握できない。
本研究では,(1)音楽領域に適応した音楽LMのより汎用的な評価基準を提案し,(2)音楽LMの応答の正しさを定量的に評価するための実測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.124350492915739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music language models (Music LMs), like vision language models, leverage multimodal representations to answer natural language queries about musical audio recordings. Although Music LMs are reportedly improving, we find that current evaluations fail to capture whether their answers are correct. Specifically, for all Music LMs that we examine, widely-used evaluation metrics such as BLEU, METEOR, and BERTScore fail to measure anything beyond linguistic fluency of the model's responses. To measure the true performance of Music LMs, we propose (1) a better general-purpose evaluation metric for Music LMs adapted to the music domain and (2) a factual evaluation framework to quantify the correctness of a Music LM's responses. Our framework is agnostic to the modality of the question-answering model and could be generalized to quantify performance in other open-ended question-answering domains. We use open datasets in our experiments and will release all code on publication.
- Abstract(参考訳): 音楽言語モデル(Music LM)は、視覚言語モデルと同様に、マルチモーダル表現を利用して、音楽録音に関する自然言語クエリに答える。
Music LMは改善されていると報じられているが、現在の評価ではその答えが正しいかどうかを把握できない。
具体的には, BLEU, METEOR, BERTScoreなどの広範に使用されている評価指標を検証したすべての音楽 LM に対して, モデル応答の言語的流速を超えるものの測定に失敗する。
音楽 LM の真の性能を評価するため,(1) 音楽領域に適応した音楽 LM のより汎用的な評価基準を提案し,(2) 音楽 LM の応答の正しさを定量化するための実測フレームワークを提案する。
我々のフレームワークは質問応答モデルのモダリティに非依存であり、他のオープンな質問応答領域のパフォーマンスを定量化するために一般化することができる。
実験ではオープンデータセットを使用し、すべてのコードを公開して公開します。
関連論文リスト
- Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文 参考訳(メタデータ) (2025-06-14T00:18:44Z) - Harnessing High-Level Song Descriptors towards Natural Language-Based Music Recommendation [10.740852246735004]
言語モデル(LM)は、ユーザーが大規模なカタログをナビゲートするのを支援することで人気を集めている。
ジャンル,ムード,リスニングコンテキストなどの記述子を用いたユーザ自然言語記述や項目に基づく楽曲の推薦におけるLMの有効性を評価した。
その結果,LMは言語間の類似性,情報検索,より長い記述をより短い高レベルな音楽記述子にマッピングするために微調整されているため,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-08T15:45:33Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - The Music Maestro or The Musically Challenged, A Massive Music Evaluation Benchmark for Large Language Models [63.53530525014976]
ZIQI-Evalは、大規模言語モデル(LLM)の音楽関連能力を評価するために設計されたベンチマークである。
ZIQI-Evalは10の主要なカテゴリと56のサブカテゴリをカバーし、14,000以上の精巧にキュレートされたデータエントリをカバーしている。
その結果,全てのLLMはZIQI-Evalベンチマークでは性能が悪く,音楽能力の向上の余地が示唆された。
論文 参考訳(メタデータ) (2024-06-22T16:24:42Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music [21.380568107727207]
中国語で書かれた最初のオープンソース音楽記述ベンチマークであるMuChinを紹介する。
MuChinは、音楽の理解と記述において、マルチモーダルな大規模言語モデルの性能を評価するように設計されている。
ベンチマークに関連するすべてのデータは、スコアコードと詳細な付録とともに、オープンソース化されている。
論文 参考訳(メタデータ) (2024-02-15T10:55:01Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。