論文の概要: MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix
- arxiv url: http://arxiv.org/abs/2505.13032v1
- Date: Mon, 19 May 2025 12:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.582123
- Title: MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix
- Title(参考訳): MMAR: 音声、オーディオ、音楽、およびそれらの混合におけるディープ推論のためのチェアリングベンチマーク
- Authors: Ziyang Ma, Yinghao Ma, Yanqiao Zhu, Chen Yang, Yi-Wen Chao, Ruiyang Xu, Wenxi Chen, Yuanzhe Chen, Zhuo Chen, Jian Cong, Kai Li, Keliang Li, Siyou Li, Xinfeng Li, Xiquan Li, Zheng Lian, Yuzhe Liang, Minghao Liu, Zhikang Niu, Tianrui Wang, Yuping Wang, Yuxuan Wang, Yihao Wu, Guanrou Yang, Jianwei Yu, Ruibin Yuan, Zhisheng Zheng, Ziya Zhou, Haina Zhu, Wei Xue, Emmanouil Benetos, Kai Yu, Eng-Siong Chng, Xie Chen,
- Abstract要約: MMARは、精密にキュレートされた1000個のオーディオクエスト・アンサー・トリプルから構成される。
MMARは既存のベンチマークを幅広い実世界のオーディオシナリオに拡張する。
我々は,Large Audio-Language Models (LALM)を含む,幅広いモデルの集合を用いてMMARを評価する。
- 参考スコア(独自算出の注目度): 50.71803775663387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MMAR, a new benchmark designed to evaluate the deep reasoning capabilities of Audio-Language Models (ALMs) across massive multi-disciplinary tasks. MMAR comprises 1,000 meticulously curated audio-question-answer triplets, collected from real-world internet videos and refined through iterative error corrections and quality checks to ensure high quality. Unlike existing benchmarks that are limited to specific domains of sound, music, or speech, MMAR extends them to a broad spectrum of real-world audio scenarios, including mixed-modality combinations of sound, music, and speech. Each question in MMAR is hierarchically categorized across four reasoning layers: Signal, Perception, Semantic, and Cultural, with additional sub-categories within each layer to reflect task diversity and complexity. To further foster research in this area, we annotate every question with a Chain-of-Thought (CoT) rationale to promote future advancements in audio reasoning. Each item in the benchmark demands multi-step deep reasoning beyond surface-level understanding. Moreover, a part of the questions requires graduate-level perceptual and domain-specific knowledge, elevating the benchmark's difficulty and depth. We evaluate MMAR using a broad set of models, including Large Audio-Language Models (LALMs), Large Audio Reasoning Models (LARMs), Omni Language Models (OLMs), Large Language Models (LLMs), and Large Reasoning Models (LRMs), with audio caption inputs. The performance of these models on MMAR highlights the benchmark's challenging nature, and our analysis further reveals critical limitations of understanding and reasoning capabilities among current models. We hope MMAR will serve as a catalyst for future advances in this important but little-explored area.
- Abstract(参考訳): 大規模マルチディシプリナタスクにおけるALM(Audio-Language Models)の深い推論能力を評価するために設計された新しいベンチマークであるMMARを紹介する。
MMARは、リアルなインターネットビデオから収集され、反復的なエラー修正と品質チェックによって洗練され、高品質な音質を保証する。
音、音楽、音声の特定の領域に限定される既存のベンチマークとは異なり、MMARはそれらを、音、音楽、音声の混合モダリティの組み合わせを含む、様々な現実世界のオーディオシナリオに拡張する。
MMARの各質問は、信号、知覚、セマンティック、文化の4つの推論層に階層的に分類され、各レイヤにタスクの多様性と複雑さを反映するサブカテゴリが追加されている。
この領域のさらなる研究を促進するため、音声推論における今後の進歩を促進するために、すべての質問にCoT(Chain-of-Thought)の理屈で注釈を付ける。
ベンチマークの各項目は、表面レベルの理解を超えた、多段階の深い推論を必要とする。
さらに、質問の一部は、ベンチマークの難易度と深さを高めるために、大学院レベルの知覚とドメイン固有の知識を必要とする。
本稿では,Large Audio-Language Models(LALM),Large Audio Reasoning Models(LARM),Omni Language Models(OLM),Large Language Models(LLM),Large Reasoning Models(LRM)など,幅広いモデルを用いてMMARを評価する。
MMARにおけるこれらのモデルの性能は、ベンチマークの難易度を強調し、我々の分析は、現在のモデルにおける理解と推論能力の限界をさらに明らかにしている。
我々はMMARが、この重要だがほとんど探索されていない領域における将来の進歩の触媒となることを願っている。
関連論文リスト
- SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information [44.99833362998488]
大規模音声言語モデル(LALM)は、音声、音声などにおけるマルチモーダル理解によって、大きな言語モデルを拡張する。
音声および音声処理タスクにおける彼らのパフォーマンスは広範囲に研究されているが、その推論能力はいまだに未解明である。
音声情報と音声情報に基づいて,LALMのマルチホップ推論を評価するベンチマークであるSAkuraを紹介する。
その結果,LALMは,関連情報を正しく抽出しても,マルチホップ推論のための音声/音声表現の統合に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T15:20:32Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - URO-Bench: A Comprehensive Benchmark for End-to-End Spoken Dialogue Models [8.882948576463244]
音声対話モデル(SDM)の広範なベンチマークであるURO-Benchを提案する。
URO-BenchはS2Sベンチマークで、多言語主義、多ラウンド対話、パラ言語学の評価をカバーしている。
ベンチマークは、基本トラックとプロトラックの2つの難易度に分類され、それぞれ16と20のデータセットで構成されている。
論文 参考訳(メタデータ) (2025-02-25T03:31:48Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。