論文の概要: MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2509.22461v1
- Date: Fri, 26 Sep 2025 15:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.535797
- Title: MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark
- Title(参考訳): MDAR:マルチシーン動的オーディオ推論ベンチマーク
- Authors: Hui Li, Changhao Jiang, Hongyu Wang, Ming Zhang, Jiajun Sun, Zhixiong Yang, Yifei Cao, Shihan Dou, Xiaoran Fan, Baoyu Fan, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 本稿では,複雑なマルチシーン,動的に進化する音声推論タスクのモデルを評価するためのベンチマークMDARを紹介する。
MDARは、様々なオーディオクリップにリンクされた3000の慎重にキュレートされた質問応答ペアから構成される。
MDAR上で26の最先端オーディオ言語モデルをベンチマークし、それらが複雑な推論タスクに制限があることを観察する。
- 参考スコア(独自算出の注目度): 64.89810922949984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to reason from audio, including speech, paralinguistic cues, environmental sounds, and music, is essential for AI agents to interact effectively in real-world scenarios. Existing benchmarks mainly focus on static or single-scene settings and do not fully capture scenarios where multiple speakers, unfolding events, and heterogeneous audio sources interact. To address these challenges, we introduce MDAR, a benchmark for evaluating models on complex, multi-scene, and dynamically evolving audio reasoning tasks. MDAR comprises 3,000 carefully curated question-answer pairs linked to diverse audio clips, covering five categories of complex reasoning and spanning three question types. We benchmark 26 state-of-the-art audio language models on MDAR and observe that they exhibit limitations in complex reasoning tasks. On single-choice questions, Qwen2.5-Omni (open-source) achieves 76.67% accuracy, whereas GPT-4o Audio (closed-source) reaches 68.47%; however, GPT-4o Audio substantially outperforms Qwen2.5-Omni on the more challenging multiple-choice and open-ended tasks. Across all three question types, no model achieves 80% performance. These findings underscore the unique challenges posed by MDAR and its value as a benchmark for advancing audio reasoning research.Code and benchmark can be found at https://github.com/luckyerr/MDAR.
- Abstract(参考訳): 音声、パラ言語的手がかり、環境音、音楽など、音声から推論する能力は、AIエージェントが現実世界のシナリオで効果的に対話するために不可欠である。
既存のベンチマークは、主に静的またはシングルシーンの設定に焦点を当てており、複数の話者、展開イベント、異種オーディオソースが相互作用するシナリオを完全にキャプチャしていない。
これらの課題に対処するために、複雑なマルチシーン、動的に進化する音声推論タスクのモデルを評価するためのベンチマークであるMDARを紹介する。
MDARは、様々な音声クリップに関連付けられ、複雑な推論と3つの質問タイプにまたがる5つのカテゴリを網羅した3000の精巧な質問応答ペアで構成されている。
MDAR上で26の最先端オーディオ言語モデルをベンチマークし、それらが複雑な推論タスクに制限があることを観察する。
Qwen2.5-Omni (オープンソース)は76.67%、GPT-4o Audio (オープンソース)は68.47%である。
3つの質問タイプにまたがって、モデルが80%のパフォーマンスを達成することはない。
これらの結果は、MDARが生み出す固有の課題と、音声推論研究の進歩のためのベンチマークとしてのその価値を、https://github.com/luckyerr/MDARで見ることができる。
関連論文リスト
- VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing [45.15289852736435]
VoiceAssistant-Evalは、13のタスクカテゴリにまたがる10,497のキュレートされた例で構成されている。
実用性を示すため,21のオープンソースモデルとGPT-4o-Audioを評価した。
プロプライエタリなモデルは、オープンソースモデルより普遍的に優れているわけではない。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Mellow: a small audio language model for reasoning [31.309253699062307]
Mellowは、推論用に特別に設計された小さなAudio-Language Modelだ。
ReasonAQAは、モデルにおけるオーディオグラウンド推論を強化するために設計されたデータセットである。
私たちのトレーニングデータセット、発見、ベースラインは、推論可能な小さなALMを開発するための道を開いた。
論文 参考訳(メタデータ) (2025-03-11T15:29:00Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark [44.672035866509624]
MMAUは、人間の注釈付き自然言語の質問と回答とを合わせた、注意深く編集された10kのオーディオクリップで構成されている。
これには、情報抽出と推論の質問が含まれており、モデルは、ユニークで困難なタスクにまたがる27の異なるスキルを実証する必要がある。
我々は18のオープンソースおよびプロプライエタリなAudio-Language Modelを評価し、MMAUがもたらす重大な課題を実証した。
論文 参考訳(メタデータ) (2024-10-24T21:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。