論文の概要: AHELM: A Holistic Evaluation of Audio-Language Models
- arxiv url: http://arxiv.org/abs/2508.21376v2
- Date: Tue, 02 Sep 2025 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 11:03:28.034076
- Title: AHELM: A Holistic Evaluation of Audio-Language Models
- Title(参考訳): AHELM:音声言語モデルの全体的評価
- Authors: Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang,
- Abstract要約: マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
- 参考スコア(独自算出の注目度): 78.20477815156484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluations of audio-language models (ALMs) -- multimodal models that take interleaved audio and text as input and output text -- are hindered by the lack of standardized benchmarks; most benchmarks measure only one or two capabilities and omit evaluative aspects such as fairness or safety. Furthermore, comparison across models is difficult as separate evaluations test a limited number of models and use different prompting methods and inference parameters. To address these shortfalls, we introduce AHELM, a benchmark that aggregates various datasets -- including 2 new synthetic audio-text datasets called PARADE, which evaluates the ALMs on avoiding stereotypes, and CoRe-Bench, which measures reasoning over conversational audio through inferential multi-turn question answering -- to holistically measure the performance of ALMs across 10 aspects we have identified as important to the development and usage of ALMs: audio perception, knowledge, reasoning, emotion detection, bias, fairness, multilinguality, robustness, toxicity, and safety. We also standardize the prompts, inference parameters, and evaluation metrics to ensure equitable comparisons across models. We test 14 open-weight and closed-API ALMs from 3 developers and 3 additional simple baseline systems each consisting of an automatic speech recognizer and a language model. Our results show that while Gemini 2.5 Pro ranks top in 5 out of 10 aspects, it exhibits group unfairness ($p=0.01$) on ASR tasks whereas most of the other models do not. We also find that the baseline systems perform reasonably well on AHELM, with one ranking 6th overall despite having only speech-to-text capabilities. For transparency, all raw prompts, model generations, and outputs are available on our website at https://crfm.stanford.edu/helm/audio/v1.0.0. AHELM is intended to be a living benchmark and new datasets and models will be added over time.
- Abstract(参考訳): 音声言語モデル(ALM) -- インターリーブされた音声とテキストを入力および出力テキストとして取り込むマルチモーダルモデル -- の評価は、標準化されたベンチマークの欠如によって妨げられている。
さらに、モデル間の比較は、異なる評価が限られた数のモデルをテストし、異なるプロンプトメソッドと推論パラメータを使用するため困難である。
これらの欠点に対処するため、AHELMは、ステレオタイプを避けるためのALMを評価するPARADEと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマーク、CoRe-Benchを紹介します。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
3人の開発者による14のオープンウェイトおよびクローズドAPIALMと、それぞれ自動音声認識と言語モデルからなる3つの簡単なベースラインシステムをテストする。
以上の結果から,ジェミニ2.5 Proは10面中5面にランクインするが,ASRタスクではグループ不公平(p=0.01$)を示すのに対し,他のモデルではそうではないことが示唆された。
また,AHELMのベースラインシステムは,音声からテキストまでの能力しか持たないにも関わらず,総合で6位にランクインした。
透明性のために、すべての生のプロンプト、モデル世代、アウトプットは、https://crfm.stanford.edu/helm/audio/v1.0.0で公開されています。
AHELMは生きたベンチマークを意図しており、新しいデータセットとモデルが追加される予定だ。
関連論文リスト
- VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。