論文の概要: AudioBench: A Universal Benchmark for Audio Large Language Models
- arxiv url: http://arxiv.org/abs/2406.16020v2
- Date: Tue, 25 Jun 2024 12:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:02:11.213695
- Title: AudioBench: A Universal Benchmark for Audio Large Language Models
- Title(参考訳): AudioBench: オーディオ大言語モデルのためのユニバーサルベンチマーク
- Authors: Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen,
- Abstract要約: 我々は、オーディオ大言語モデル(AudioLLMs)を評価するために設計された新しいベンチマークであるAudioBenchを紹介する。
AudioBenchは、音声理解、音声解釈、音声シーン理解に焦点を当て、8つの異なるタスクと26の慎重に選択された、または新しく訓練されたデータセットを含んでいる。
- 参考スコア(独自算出の注目度): 41.46064884020139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AudioBench, a new benchmark designed to evaluate audio large language models (AudioLLMs). AudioBench encompasses 8 distinct tasks and 26 carefully selected or newly curated datasets, focusing on speech understanding, voice interpretation, and audio scene understanding. Despite the rapid advancement of large language models, including multimodal versions, a significant gap exists in comprehensive benchmarks for thoroughly evaluating their capabilities. AudioBench addresses this gap by providing relevant datasets and evaluation metrics. In our study, we evaluated the capabilities of four models across various aspects and found that no single model excels consistently across all tasks. We outline the research outlook for AudioLLMs and anticipate that our open-source code, data, and leaderboard will offer a robust testbed for future model developments.
- Abstract(参考訳): 音声大言語モデル(AudioLLMs)を評価するために設計された新しいベンチマークであるAudioBenchを紹介する。
AudioBenchは、音声理解、音声解釈、音声シーン理解に焦点を当て、8つの異なるタスクと26の慎重に選択された、または新しく訓練されたデータセットを含んでいる。
マルチモーダルバージョンを含む大規模言語モデルの急速な進歩にもかかわらず、その能力を徹底的に評価するための包括的なベンチマークには大きなギャップがある。
AudioBenchは、関連するデータセットと評価メトリクスを提供することで、このギャップに対処する。
そこで本研究では,4つのモデルの諸側面における能力評価を行い,各タスクに一貫した1つのモデルが存在しないことを示した。
我々は、AudioLLMsの研究見通しを概説し、私たちのオープンソースコード、データ、およびリーダーボードが将来のモデル開発のための堅牢なテストベッドを提供することを期待しています。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores [18.26082503192707]
PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)スコアは,音声-視覚同期の質を評価する5点尺度を備えた新しい自動測定値である。
実験では、Fr'eche'tをベースとしたオーディオ・ビジュアル同期の自然な拡張に対して、相対的な50%のゲインを観測した。
論文 参考訳(メタデータ) (2024-04-10T20:32:24Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - HEAR 2021: Holistic Evaluation of Audio Representations [55.324557862041985]
HEAR 2021 NeurIPSの課題は、学習の強力な基盤を提供する汎用オーディオ表現を開発することである。
HEAR 2021は、音声、環境音、音楽を含む様々な領域にわたるベンチマークスイートを用いて、音声表現を評価する。
16個のデータセットから抽出した19種類の下流タスクに対して,13の外部チームによる2つのモデルを評価した。
論文 参考訳(メタデータ) (2022-03-06T18:13:09Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。