論文の概要: The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS
- arxiv url: http://arxiv.org/abs/2510.19055v1
- Date: Tue, 21 Oct 2025 20:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.62882
- Title: The MUSE Benchmark: Probing Music Perception and Auditory Relational Reasoning in Audio LLMS
- Title(参考訳): MUSEベンチマーク:オーディオLLMSにおける音楽知覚と聴覚関係推論の探索
- Authors: Brandon James Carone, Iran R. Roman, Pablo Ripollés,
- Abstract要約: 本稿では,音楽理解・構造評価(MUSE)ベンチマークについて紹介する。
我々は、大規模なヒトベースライン(N0)に対して4つのSOTAモデルを評価する。
以上の結果から,SOTAの能力は多岐にわたることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated capabilities in audio understanding, but current evaluations may obscure fundamental weaknesses in relational reasoning. We introduce the Music Understanding and Structural Evaluation (MUSE) Benchmark, an open-source resource with 10 tasks designed to probe fundamental music perception skills. We evaluate four SOTA models (Gemini Pro and Flash, Qwen2.5-Omni, and Audio-Flamingo 3) against a large human baseline (N=200). Our results reveal a wide variance in SOTA capabilities and a persistent gap with human experts. While Gemini Pro succeeds on basic perception, Qwen and Audio Flamingo 3 perform at or near chance, exposing severe perceptual deficits. Furthermore, we find Chain-of-Thought (CoT) prompting provides inconsistent, often detrimental results. Our work provides a critical tool for evaluating invariant musical representations and driving development of more robust AI systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、音声理解の能力を示しているが、現在の評価は関係推論の根本的な弱点を曖昧にしている可能性がある。
本稿では,音楽理解・構造評価(MUSE)ベンチマークについて紹介する。
我々は,大規模な人間ベースライン(N=200)に対して,4種類のSOTAモデル(Gemini Pro,Flash,Qwen2.5-Omni,Audio-Flamingo3)を評価した。
以上の結果から,SOTAの能力は多岐にわたることが判明した。
Gemini Proは基本的な認識で成功するが、QwenとAudio Flamingo 3は偶然に実行し、深刻な知覚障害を露呈する。
さらに、CoT(Chain-of-Thought)は一貫性のない、しばしば有害な結果をもたらす。
我々の研究は、不変な音楽表現を評価し、より堅牢なAIシステムを開発するための重要なツールを提供する。
関連論文リスト
- Singing Timbre Popularity Assessment Based on Multimodal Large Foundation Model [28.382926227472026]
Sing-MDは, 呼吸制御, 音質, 感情表現, 発声技術という4次元の専門家によって注釈付けされた大規模データセットである。
次に,マルチモーダル大言語モデル(MLLM)の完全長歌の分析におけるメモリ制限に対処し,VocalVerseを提案する。
第3に、自動計量不足に対処するために、モデルが知覚的に有効なランキングを生成する能力を評価するH-TPRベンチマークを確立する。
論文 参考訳(メタデータ) (2025-12-07T21:06:16Z) - See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models [24.851643680674474]
AV-SpeakerBenchは、現実世界のビデオにおける話者中心のオーディオヴィジュアル推論に焦点を当てた、3,212のマルチチョイス質問のベンチマークである。
その特徴は,(1)話者中心の場面を中心的推論単位として扱う話者中心の定式化,(2)音声の視覚的依存を質問意味論に組み込む融合型質問設計,(3)時間的精度と横断的妥当性を保証する専門家計算アノテーションである。
論文 参考訳(メタデータ) (2025-12-01T21:57:26Z) - When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion? [41.579901082251254]
実験結果から,Multimodal Large Language Models (MLLM) は視覚的に支配的な推論のため,存在しない音声の識別に苦慮していることが明らかとなった。
本稿では,RL-CoMM(Reinforcement Learning-based Collaborative Multi-MLLM)を紹介する。
1)視覚的に支配されるあいまいさを緩和するために、音声のみの推論を生成するための参照モデルとして、外部モデルであるLarge Audio Language Model (LALM)を導入する。
論文 参考訳(メタデータ) (2025-11-13T07:59:41Z) - Evaluating Multimodal Large Language Models on Core Music Perception Tasks [0.0]
我々は,3つの中核的音楽スキルであるシンコレーション・スコーリング,トランスポジション検出,コード品質同定の3つのSOTA LLMをベンチマークした。
後者では,LLMとシンボリック・ソルバを組み合わせたフレームワークであるLogicLMを音楽に適用し,構造化推論を行う。
モデルはMIDIでは天井付近で実行するが、オーディオでは精度が低下する。
論文 参考訳(メタデータ) (2025-10-25T23:10:16Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。