論文の概要: AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension
- arxiv url: http://arxiv.org/abs/2402.07729v1
- Date: Mon, 12 Feb 2024 15:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:57:50.818542
- Title: AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension
- Title(参考訳): AIR-Bench: 生成的理解による大規模オーディオ言語モデルのベンチマーク
- Authors: Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou,
Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou
- Abstract要約: AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
- 参考スコア(独自算出の注目度): 98.69691822391069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, instruction-following audio-language models have received broad
attention for human-audio interaction. However, the absence of benchmarks
capable of evaluating audio-centric interaction capabilities has impeded
advancements in this field. Previous models primarily focus on assessing
different fundamental tasks, such as Automatic Speech Recognition (ASR), and
lack an assessment of the open-ended generative capabilities centered around
audio. Thus, it is challenging to track the progression in the Large
Audio-Language Models (LALMs) domain and to provide guidance for future
improvement. In this paper, we introduce AIR-Bench (\textbf{A}udio
\textbf{I}nst\textbf{R}uction \textbf{Bench}mark), the first benchmark designed
to evaluate the ability of LALMs to understand various types of audio signals
(including human speech, natural sounds, and music), and furthermore, to
interact with humans in the textual format. AIR-Bench encompasses two
dimensions: \textit{foundation} and \textit{chat} benchmarks. The former
consists of 19 tasks with approximately 19k single-choice questions, intending
to inspect the basic single-task ability of LALMs. The latter one contains 2k
instances of open-ended question-and-answer data, directly assessing the
comprehension of the model on complex audio and its capacity to follow
instructions. Both benchmarks require the model to generate hypotheses
directly. We design a unified framework that leverages advanced language
models, such as GPT-4, to evaluate the scores of generated hypotheses given the
meta-information of the audio. Experimental results demonstrate a high level of
consistency between GPT-4-based evaluation and human evaluation. By revealing
the limitations of existing LALMs through evaluation results, AIR-Bench can
provide insights into the direction of future research.
- Abstract(参考訳): 近年,命令追従型音声言語モデルが人間と音声の相互作用に広く注目されている。
しかし、音声中心の対話能力を評価するベンチマークがないことは、この分野の進歩を妨げている。
従来のモデルは、音声認識(asr)などの異なる基本タスクの評価に重点を置いており、音声を中心としたオープンエンド生成能力の評価を欠いている。
したがって、LALM(Large Audio-Language Models)領域の進展を追跡し、今後の改善のためのガイダンスを提供することは困難である。
本稿では,lalmsの様々な音声信号(音声,自然音,音楽など)の理解能力を評価するために設計された最初のベンチマークであるair-bench (\textbf{a}udio \textbf{i}nst\textbf{r}uction \textbf{bench}mark)を紹介する。
AIR-Benchは2つの次元を含む: \textit{foundation} と \textit{chat} ベンチマーク。
前者は19のタスクと約19kの単座質問で構成され、LALMの基本的な単座能力を調べることを目的としている。
後者は、オープンエンドのクェリ・アンド・アンワーデータの2kインスタンスを含み、複雑なオーディオにおけるモデルの理解と命令に従う能力を直接評価する。
どちらのベンチマークも、モデルが直接仮説を生成する必要がある。
音声のメタ情報から生成された仮説のスコアを評価するために,gpt-4などの先進言語モデルを活用した統一フレームワークを設計した。
実験の結果,gpt-4に基づく評価と人間評価の整合性が高まった。
評価結果を通じて既存のLALMの限界を明らかにすることで、AIR-Benchは将来の研究の方向性についての洞察を提供することができる。
関連論文リスト
- AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
我々は、オーディオ大言語モデル(AudioLLMs)を評価するために設計された新しいベンチマークであるAudioBenchを紹介する。
AudioBenchは、音声理解、音声解釈、音声シーン理解に焦点を当て、8つの異なるタスクと26の慎重に選択された、または新しく訓練されたデータセットを含んでいる。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - FALL-E: A Foley Sound Synthesis Model and Strategies [0.5599792629509229]
FALL-Eモデルは、低分解能スペクトログラム生成、スペクトル超解像、ボコーダからなるカスケード方式を採用している。
我々はデータセット固有のテキストでモデルを条件付けし、テキスト入力に基づいて音質と記録環境を学習できるようにした。
論文 参考訳(メタデータ) (2023-06-16T12:44:10Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。