論文の概要: The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS
- arxiv url: http://arxiv.org/abs/2510.19055v1
- Date: Tue, 21 Oct 2025 20:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.62882
- Title: The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS
- Title(参考訳): MUSEベンチマーク:オーディオLLMSにおける音楽知覚と聴覚関係推論の探索
- Authors: Brandon James Carone, Iran R. Roman, Pablo Ripollés,
- Abstract要約: 本稿では,音楽理解・構造評価(MUSE)ベンチマークについて紹介する。
我々は、大規模なヒトベースライン(N0)に対して4つのSOTAモデルを評価する。
以上の結果から,SOTAの能力は多岐にわたることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated capabilities in audio understanding, but current evaluations may obscure fundamental weaknesses in relational reasoning. We introduce the Music Understanding and Structural Evaluation (MUSE) Benchmark, an open-source resource with 10 tasks designed to probe fundamental music perception skills. We evaluate four SOTA models (Gemini Pro and Flash, Qwen2.5-Omni, and Audio-Flamingo 3) against a large human baseline (N=200). Our results reveal a wide variance in SOTA capabilities and a persistent gap with human experts. While Gemini Pro succeeds on basic perception, Qwen and Audio Flamingo 3 perform at or near chance, exposing severe perceptual deficits. Furthermore, we find Chain-of-Thought (CoT) prompting provides inconsistent, often detrimental results. Our work provides a critical tool for evaluating invariant musical representations and driving development of more robust AI systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、音声理解の能力を示しているが、現在の評価は関係推論の根本的な弱点を曖昧にしている可能性がある。
本稿では,音楽理解・構造評価(MUSE)ベンチマークについて紹介する。
我々は,大規模な人間ベースライン(N=200)に対して,4種類のSOTAモデル(Gemini Pro,Flash,Qwen2.5-Omni,Audio-Flamingo3)を評価した。
以上の結果から,SOTAの能力は多岐にわたることが判明した。
Gemini Proは基本的な認識で成功するが、QwenとAudio Flamingo 3は偶然に実行し、深刻な知覚障害を露呈する。
さらに、CoT(Chain-of-Thought)は一貫性のない、しばしば有害な結果をもたらす。
我々の研究は、不変な音楽表現を評価し、より堅牢なAIシステムを開発するための重要なツールを提供する。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。