論文の概要: MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks
- arxiv url: http://arxiv.org/abs/2507.23511v1
- Date: Thu, 31 Jul 2025 12:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.739782
- Title: MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks
- Title(参考訳): MECAT: 細粒度音声理解タスクのためのマルチエキスパートベンチマーク
- Authors: Yadong Niu, Tianzi Wang, Heinrich Dinkel, Xingwei Sun, Jiahao Zhou, Gang Li, Jizhong Liu, Xunying Liu, Junbo Zhang, Jian Luan,
- Abstract要約: MECATは、細粒度音声理解タスクのためのマルチエキスパートコンストラクトベンチマークである。
専門的な専門家モデルからの分析を、Chain-of-Thoughtの大規模言語モデル推論と統合する。
また,最先端オーディオモデルの包括的評価について述べる。
- 参考スコア(独自算出の注目度): 38.51162036564078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large audio-language models have advanced open-ended audio understanding, they still fall short of nuanced human-level comprehension. This gap persists largely because current benchmarks, limited by data annotations and evaluation metrics, fail to reliably distinguish between generic and highly detailed model outputs. To this end, this work introduces MECAT, a Multi-Expert Constructed Benchmark for Fine-Grained Audio Understanding Tasks. Generated via a pipeline that integrates analysis from specialized expert models with Chain-of-Thought large language model reasoning, MECAT provides multi-perspective, fine-grained captions and open-set question-answering pairs. The benchmark is complemented by a novel metric: DATE (Discriminative-Enhanced Audio Text Evaluation). This metric penalizes generic terms and rewards detailed descriptions by combining single-sample semantic similarity with cross-sample discriminability. A comprehensive evaluation of state-of-the-art audio models is also presented, providing new insights into their current capabilities and limitations. The data and code are available at https://github.com/xiaomi-research/mecat
- Abstract(参考訳): 大規模な音声言語モデルは、高度なオープンエンドオーディオ理解を持っているが、それでも人間のレベル理解のニュアンスに欠ける。
このギャップは、データアノテーションと評価指標によって制限された現在のベンチマークが、ジェネリックと高精細なモデル出力を確実に区別できないため、主に持続する。
この目的のために,MECAT(Multi-Expert Constructed Benchmark for Fine-Grained Audio Understanding Tasks)を導入している。
MECATは、専門的な専門家モデルからの分析とChain-of-Thoughtの大規模言語モデル推論を統合するパイプラインを通じて生成され、複数のパースペクティブできめ細かいキャプションとオープンセットの質問応答ペアを提供する。
ベンチマークは、DATE(Discriminative-Enhanced Audio Text Evaluation)という新しいメトリクスによって補完される。
この計量は、単一サンプルのセマンティックな類似性とクロスサンプルの識別可能性を組み合わせることで、一般的な用語を罰し、詳細な記述を報いる。
最先端オーディオモデルの包括的評価も提示され、現在の機能と限界に関する新たな洞察を提供する。
データとコードはhttps://github.com/xiaomi-research/mecatで公開されている。
関連論文リスト
- Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [23.83866791274789]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - Discrete Audio Tokens: More Than a Survey! [107.69720675124255]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models [18.11667976818302]
IFEval-Audioには、6つの異なる次元にわたる280のオーディオインストラクション回答トリプルが含まれている。
各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。
我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
論文 参考訳(メタデータ) (2025-05-22T15:15:29Z) - DAVE: Diagnostic benchmark for Audio Visual Evaluation [43.54781776394087]
DAVEは,聴覚・視覚モデルの評価を体系的に行うために設計された,新しいベンチマークデータセットである。
DAVEは、(i)両方のモダリティが正しく答えるのを確実にし、(ii)評価をアトミックなサブカテゴリに分離することで、既存の制限を緩和する。
最先端モデルの詳細な分析では、特定の障害モードを明らかにし、改善のための目標となる洞察を提供する。
論文 参考訳(メタデータ) (2025-03-12T12:12:46Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。