論文の概要: AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension
- arxiv url: http://arxiv.org/abs/2402.07729v1
- Date: Mon, 12 Feb 2024 15:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:57:50.818542
- Title: AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension
- Title(参考訳): AIR-Bench: 生成的理解による大規模オーディオ言語モデルのベンチマーク
- Authors: Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou,
Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou
- Abstract要約: AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
- 参考スコア(独自算出の注目度): 98.69691822391069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, instruction-following audio-language models have received broad
attention for human-audio interaction. However, the absence of benchmarks
capable of evaluating audio-centric interaction capabilities has impeded
advancements in this field. Previous models primarily focus on assessing
different fundamental tasks, such as Automatic Speech Recognition (ASR), and
lack an assessment of the open-ended generative capabilities centered around
audio. Thus, it is challenging to track the progression in the Large
Audio-Language Models (LALMs) domain and to provide guidance for future
improvement. In this paper, we introduce AIR-Bench (\textbf{A}udio
\textbf{I}nst\textbf{R}uction \textbf{Bench}mark), the first benchmark designed
to evaluate the ability of LALMs to understand various types of audio signals
(including human speech, natural sounds, and music), and furthermore, to
interact with humans in the textual format. AIR-Bench encompasses two
dimensions: \textit{foundation} and \textit{chat} benchmarks. The former
consists of 19 tasks with approximately 19k single-choice questions, intending
to inspect the basic single-task ability of LALMs. The latter one contains 2k
instances of open-ended question-and-answer data, directly assessing the
comprehension of the model on complex audio and its capacity to follow
instructions. Both benchmarks require the model to generate hypotheses
directly. We design a unified framework that leverages advanced language
models, such as GPT-4, to evaluate the scores of generated hypotheses given the
meta-information of the audio. Experimental results demonstrate a high level of
consistency between GPT-4-based evaluation and human evaluation. By revealing
the limitations of existing LALMs through evaluation results, AIR-Bench can
provide insights into the direction of future research.
- Abstract(参考訳): 近年,命令追従型音声言語モデルが人間と音声の相互作用に広く注目されている。
しかし、音声中心の対話能力を評価するベンチマークがないことは、この分野の進歩を妨げている。
従来のモデルは、音声認識(asr)などの異なる基本タスクの評価に重点を置いており、音声を中心としたオープンエンド生成能力の評価を欠いている。
したがって、LALM(Large Audio-Language Models)領域の進展を追跡し、今後の改善のためのガイダンスを提供することは困難である。
本稿では,lalmsの様々な音声信号(音声,自然音,音楽など)の理解能力を評価するために設計された最初のベンチマークであるair-bench (\textbf{a}udio \textbf{i}nst\textbf{r}uction \textbf{bench}mark)を紹介する。
AIR-Benchは2つの次元を含む: \textit{foundation} と \textit{chat} ベンチマーク。
前者は19のタスクと約19kの単座質問で構成され、LALMの基本的な単座能力を調べることを目的としている。
後者は、オープンエンドのクェリ・アンド・アンワーデータの2kインスタンスを含み、複雑なオーディオにおけるモデルの理解と命令に従う能力を直接評価する。
どちらのベンチマークも、モデルが直接仮説を生成する必要がある。
音声のメタ情報から生成された仮説のスコアを評価するために,gpt-4などの先進言語モデルを活用した統一フレームワークを設計した。
実験の結果,gpt-4に基づく評価と人間評価の整合性が高まった。
評価結果を通じて既存のLALMの限界を明らかにすることで、AIR-Benchは将来の研究の方向性についての洞察を提供することができる。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation [22.680876747656633]
音声品質評価は通常、平均評価スコア(MOS)や話者類似度(SIM)など、複数の側面から音声を評価する必要がある。
本稿では,最近導入された聴覚大言語モデル(LLM)を用いた音声品質自動評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:44:44Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。
8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。
評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文 参考訳(メタデータ) (2024-06-23T05:40:26Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。