Fugu-MT 論文翻訳(概要): Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

論文の概要: Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering

arxiv url: http://arxiv.org/abs/2604.09721v1
Date: Wed, 08 Apr 2026 16:42:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.628217
Title: Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering
Title（参考訳）: Jamendo-MT-QA:マルチトラック比較音楽質問回答のベンチマーク
Authors: Junyoung Koh, Jaeyun Lee, Soo Yong Kim, Gyu Hyeong Choi, Jung In Koh, Jordan Phillips, Yeonjin Lee, Min Song,
Abstract要約: 本稿では,複数トラック比較質問応答のためのデータセットとベンチマークであるJamendo-MT-QAを紹介する。 12,173個のトラックペアに対して36,519個の比較QA項目を作成し,それぞれがyes/no, short-answer, sentence-levelの3つの質問型を生成する。比較質問の生成とフィルタリングのためのLLM支援パイプラインと,代表的な音声言語モデルのベンチマークについて述べる。
参考スコア（独自算出の注目度）: 3.3563343960522496
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work on music question answering (Music-QA) has primarily focused on single-track understanding, where models answer questions about an individual audio clip using its tags, captions, or metadata. However, listeners often describe music in comparative terms, and existing benchmarks do not systematically evaluate reasoning across multiple tracks. Building on the Jamendo-QA dataset, we introduce Jamendo-MT-QA, a dataset and benchmark for multi-track comparative question answering. From Creative Commons-licensed tracks on Jamendo, we construct 36,519 comparative QA items over 12,173 track pairs, with each pair yielding three question types: yes/no, short-answer, and sentence-level questions. We describe an LLM-assisted pipeline for generating and filtering comparative questions, and benchmark representative audio-language models using both automatic metrics and LLM-as-a-Judge evaluation.
Abstract（参考訳）: 音楽質問応答(Music-QA)に関する最近の研究は、主にシングルトラック理解に焦点を当てており、モデルはそのタグ、キャプション、メタデータを使用して個々のオーディオクリップに関する質問に答える。しかし、リスナーはしばしば比較用語で音楽を記述することが多く、既存のベンチマークは複数のトラックにわたる推論を体系的に評価しない。 Jamendo-MT-QAデータセットをベースとして,マルチトラック比較質問応答のためのデータセットとベンチマークであるJamendo-MT-QAを紹介する。 Jamendo上のCreative Commonsライセンスのトラックから、12,173トラックペアに36,519個の比較QAアイテムを作成し、それぞれがイエス/ノー、ショートアンサー、文レベルの3つの質問タイプを出力する。比較質問の生成とフィルタリングのためのLLM支援パイプラインと、自動メトリクスとLLM-as-a-Judge評価の両方を用いて、代表音声モデルのベンチマークを行う。

関連論文リスト

HumMusQA: A Human-written Music Understanding QA Benchmark Dataset [2.7761207021407217]
本稿では,音楽教育の専門家による手書き質問320件の新しいデータセットを提案する。このデータセットの使用を実証するため、6つの最先端のLALMをベンチマークし、一様ショートカットに対するロバスト性をテストした。
論文参考訳（メタデータ） (2026-03-29T21:33:07Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文参考訳（メタデータ） (2023-05-12T14:00:26Z)
Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文参考訳（メタデータ） (2021-12-08T17:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。