論文の概要: UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
- arxiv url: http://arxiv.org/abs/2601.01373v1
- Date: Sun, 04 Jan 2026 04:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.26279
- Title: UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models
- Title(参考訳): UltraEval-Audio:音楽基礎モデルの総合的評価のための統一フレームワーク
- Authors: Qundong Shi, Jie Zhou, Biyuan Lin, Junbo Cui, Guoyang Zeng, Yixuan Zhou, Ziyang Wang, Xin Liu, Zhen Luo, Yudong Wang, Zhiyuan Liu,
- Abstract要約: UltraEval-Audioは、オーディオ基礎モデルの統一評価フレームワークである。
10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。
オーディオコーデックに新しい包括的評価手法を採用し、3つの重要な領域で性能を評価する。
- 参考スコア(独自算出の注目度): 36.71750531005594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of audio foundation models has accelerated rapidly since the emergence of GPT-4o. However, the lack of comprehensive evaluation has become a critical bottleneck for further progress in the field, particularly in audio generation. Current audio evaluation faces three major challenges: (1) audio evaluation lacks a unified framework, with datasets and code scattered across various sources, hindering fair and efficient cross-model comparison;(2) audio codecs, as a key component of audio foundation models, lack a widely accepted and holistic evaluation methodology; (3) existing speech benchmarks are heavily reliant on English, making it challenging to objectively assess models' performance on Chinese. To address the first issue, we introduce UltraEval-Audio, a unified evaluation framework for audio foundation models, specifically designed for both audio understanding and generation tasks. UltraEval-Audio features a modular architecture, supporting 10 languages and 14 core task categories, while seamlessly integrating 24 mainstream models and 36 authoritative benchmarks. To enhance research efficiency, the framework provides a one-command evaluation feature, accompanied by real-time public leaderboards. For the second challenge, UltraEval-Audio adopts a novel comprehensive evaluation scheme for audio codecs, evaluating performance across three key dimensions: semantic accuracy, timbre fidelity, and acoustic quality. To address the third issue, we propose two new Chinese benchmarks, SpeechCMMLU and SpeechHSK, designed to assess Chinese knowledge proficiency and language fluency. We wish that UltraEval-Audio will provide both academia and industry with a transparent, efficient, and fair platform for comparison of audio models. Our code, benchmarks, and leaderboards are available at https://github.com/OpenBMB/UltraEval-Audio.
- Abstract(参考訳): GPT-4oの出現以来,音声基礎モデルの開発は急速に加速している。
しかし、包括的評価の欠如は、特に音声生成において、この分野のさらなる進歩にとって重要なボトルネックとなっている。
現在の音声評価には3つの大きな課題がある:(1) 音声評価には統一されたフレームワークがなく、データセットとコードが様々なソースに分散し、公正かつ効率的なクロスモデル比較を妨げる;(2) 音声コーデックは、音声基礎モデルの鍵となる構成要素であり、広く受け入れられ、全体的な評価方法論が欠如している; 3) 既存の音声ベンチマークは英語に大きく依存しており、中国語でモデルのパフォーマンスを客観的に評価することが困難である。
最初の課題に対処するため,音声基礎モデルの統一評価フレームワークであるUltraEval-Audioを導入する。
UltraEval-Audioはモジュールアーキテクチャを備え、10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。
研究効率を高めるために、このフレームワークはリアルタイムの公開リーダボードを伴って、ワンコマンド評価機能を提供する。
2つ目の課題として、UltraEval-Audioは、意味的正確性、音色の忠実性、音響品質の3つの重要な側面にわたるパフォーマンスを評価する、新しい総合的なオーディオコーデック評価スキームを採用した。
第3の課題に対処するため,中国語の知識習熟度と言語習熟度を評価するために設計された2つの新しい中国語ベンチマークであるSpeechCMMLUとSpeechHSKを提案する。
我々は、UltraEval-Audioが、オーディオモデルの比較のための透明で効率的で公正なプラットフォームを学術と産業の両方に提供することを願っている。
私たちのコード、ベンチマーク、リーダーボードはhttps://github.com/OpenBMB/UltraEval-Audio.comで公開されています。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。