論文の概要: Factual and Musical Evaluation Metrics for Music Language Models
- arxiv url: http://arxiv.org/abs/2511.05550v1
- Date: Sun, 02 Nov 2025 18:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.426018
- Title: Factual and Musical Evaluation Metrics for Music Language Models
- Title(参考訳): 音楽言語モデルのための実測的・音楽的評価尺度
- Authors: Daniel Chenyu Lin, Michael Freeman, John Thickstun,
- Abstract要約: 音楽言語モデル(Music LM)は、マルチモーダル表現を利用して、音楽録音に関する自然言語クエリに答える。
Music LMは改善されていると報じられているが、現在の評価ではその答えが正しいかどうかを把握できない。
本研究では,(1)音楽領域に適応した音楽LMのより汎用的な評価基準を提案し,(2)音楽LMの応答の正しさを定量的に評価するための実測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.124350492915739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music language models (Music LMs), like vision language models, leverage multimodal representations to answer natural language queries about musical audio recordings. Although Music LMs are reportedly improving, we find that current evaluations fail to capture whether their answers are correct. Specifically, for all Music LMs that we examine, widely-used evaluation metrics such as BLEU, METEOR, and BERTScore fail to measure anything beyond linguistic fluency of the model's responses. To measure the true performance of Music LMs, we propose (1) a better general-purpose evaluation metric for Music LMs adapted to the music domain and (2) a factual evaluation framework to quantify the correctness of a Music LM's responses. Our framework is agnostic to the modality of the question-answering model and could be generalized to quantify performance in other open-ended question-answering domains. We use open datasets in our experiments and will release all code on publication.
- Abstract(参考訳): 音楽言語モデル(Music LM)は、視覚言語モデルと同様に、マルチモーダル表現を利用して、音楽録音に関する自然言語クエリに答える。
Music LMは改善されていると報じられているが、現在の評価ではその答えが正しいかどうかを把握できない。
具体的には, BLEU, METEOR, BERTScoreなどの広範に使用されている評価指標を検証したすべての音楽 LM に対して, モデル応答の言語的流速を超えるものの測定に失敗する。
音楽 LM の真の性能を評価するため,(1) 音楽領域に適応した音楽 LM のより汎用的な評価基準を提案し,(2) 音楽 LM の応答の正しさを定量化するための実測フレームワークを提案する。
我々のフレームワークは質問応答モデルのモダリティに非依存であり、他のオープンな質問応答領域のパフォーマンスを定量化するために一般化することができる。
実験ではオープンデータセットを使用し、すべてのコードを公開して公開します。
関連論文リスト
- CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。
以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。
LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文 参考訳(メタデータ) (2025-06-14T00:18:44Z) - Harnessing High-Level Song Descriptors towards Natural Language-Based Music Recommendation [10.740852246735004]
言語モデル(LM)は、ユーザーが大規模なカタログをナビゲートするのを支援することで人気を集めている。
ジャンル,ムード,リスニングコンテキストなどの記述子を用いたユーザ自然言語記述や項目に基づく楽曲の推薦におけるLMの有効性を評価した。
その結果,LMは言語間の類似性,情報検索,より長い記述をより短い高レベルな音楽記述子にマッピングするために微調整されているため,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-08T15:45:33Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。