Fugu-MT 論文翻訳(概要): AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

論文の概要: AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

arxiv url: http://arxiv.org/abs/2402.07729v2
Date: Fri, 26 Jul 2024 06:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 18:21:50.247330
Title: AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension
Title（参考訳）: AIR-Bench: 生成的理解による大規模オーディオ言語モデルのベンチマーク
Authors: Qian Yang, Jin Xu, Wenrui Liu, Yunfei Chu, Ziyue Jiang, Xiaohuan Zhou, Yichong Leng, Yuanjun Lv, Zhou Zhao, Chang Zhou, Jingren Zhou,
Abstract要約: AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
参考スコア（独自算出の注目度）: 95.8442896569132
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, instruction-following audio-language models have received broad attention for human-audio interaction. However, the absence of benchmarks capable of evaluating audio-centric interaction capabilities has impeded advancements in this field. Previous models primarily focus on assessing different fundamental tasks, such as Automatic Speech Recognition (ASR), and lack an assessment of the open-ended generative capabilities centered around audio. Thus, it is challenging to track the progression in the Large Audio-Language Models (LALMs) domain and to provide guidance for future improvement. In this paper, we introduce AIR-Bench (\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark), the first benchmark designed to evaluate the ability of LALMs to understand various types of audio signals (including human speech, natural sounds, and music), and furthermore, to interact with humans in the textual format. AIR-Bench encompasses two dimensions: \textit{foundation} and \textit{chat} benchmarks. The former consists of 19 tasks with approximately 19k single-choice questions, intending to inspect the basic single-task ability of LALMs. The latter one contains 2k instances of open-ended question-and-answer data, directly assessing the comprehension of the model on complex audio and its capacity to follow instructions. Both benchmarks require the model to generate hypotheses directly. We design a unified framework that leverages advanced language models, such as GPT-4, to evaluate the scores of generated hypotheses given the meta-information of the audio. Experimental results demonstrate a high level of consistency between GPT-4-based evaluation and human evaluation. By revealing the limitations of existing LALMs through evaluation results, AIR-Bench can provide insights into the direction of future research.
Abstract（参考訳）: 近年,指示追従型音声-音声モデルが人間と音声の相互作用に広く注目されている。しかし、音声中心のインタラクション能力を評価するためのベンチマークが欠如していることは、この分野の進歩を妨げている。従来のモデルは、ASR(Automatic Speech Recognition)のような様々な基本的なタスクの評価に重点を置いており、音声を中心としたオープンな生成能力の評価に欠けていた。したがって,LALM(Large Audio-Language Models)領域の進展の追跡と今後の改善のためのガイダンスの提供が困難である。本稿では, LALMの音声信号(音声, 自然音, 音楽など)の理解能力を評価するための最初のベンチマークであるAIR-Bench(\textbf{A}udio \textbf{I}nst\textbf{R}uction \textbf{Bench}mark)を紹介する。 AIR-Benchは2つの次元を含む: \textit{foundation} と \textit{chat} ベンチマーク。前者は19のタスクと約19kの単座質問で構成され、LALMの基本的な単座能力を調べることを目的としている。後者は、複雑な音声におけるモデルの理解と、その指示に従う能力を直接評価する、オープンエンドのQ&Aデータの2kインスタンスを含む。どちらのベンチマークも、仮説を直接生成するためにモデルが必要である。我々は、GPT-4のような高度な言語モデルを活用する統一的なフレームワークを設計し、音声のメタ情報から生成された仮説のスコアを評価する。実験の結果, GPT-4による評価と人的評価との間には高い一貫性が認められた。評価結果を通じて既存のLALMの限界を明らかにすることで、AIR-Benchは将来の研究の方向性についての洞察を提供することができる。

関連論文リスト

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models [36.71750531005594]
UltraEval-Audioは、オーディオ基礎モデルの統一評価フレームワークである。 10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。オーディオコーデックに新しい包括的評価手法を採用し、3つの重要な領域で性能を評価する。
論文参考訳（メタデータ） (2026-01-04T04:54:12Z)
SpeechQualityLLM: LLM-Based Multimodal Assessment of Speech Quality [2.1178416840822027]
音声品質評価は電話、VoIP、ストリーミングシステムの中心であり、大量の劣化したオーディオを大規模に監視し、最適化する必要がある。本稿では,音声エンコーダを言語モデルに結合し,テンプレートベースの質問応答ペアを用いてNISQAコーパスで学習するマルチモーダル音声品質質問応答システムであるSpeechQualityLLMを紹介する。本システムでは,数値予測を解析し,標準回帰とランキングの指標を用いて評価するテキスト回答を生成する。
論文参考訳（メタデータ） (2025-12-09T04:39:50Z)
Thinking While Listening: Simple Test Time Scaling For Audio Classification [61.3564313676731]
本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。大規模言語モデルの推論能力の最近の進歩により、我々は2つの中心的な疑問に対処する: (i) 既存の音声分類パイプラインに思考を組み込んで、カテゴリ空間での推論を可能にし、パフォーマンスを向上させる方法、(ii) 思考とテストタイムのスケーリングの両方をサポートするために、新しいアーキテクチャをゼロから設計することができるか。
論文参考訳（メタデータ） (2025-09-24T01:17:24Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (2025-05-12T09:04:16Z)
Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文参考訳（メタデータ） (2025-01-27T22:47:51Z)
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文参考訳（メタデータ） (2025-01-09T04:30:12Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation [22.680876747656633]
音声品質評価は通常、平均評価スコア(MOS)や話者類似度(SIM)など、複数の側面から音声を評価する必要がある。本稿では,最近導入された聴覚大言語モデル(LLM)を用いた音声品質自動評価手法を提案する。
論文参考訳（メタデータ） (2024-09-25T05:44:44Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。 SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文参考訳（メタデータ） (2024-09-11T17:34:52Z)
Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文参考訳（メタデータ） (2024-08-17T18:53:17Z)
AudioBench: A Universal Benchmark for Audio Large Language Models [41.46064884020139]
音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。 8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
論文参考訳（メタデータ） (2024-06-23T05:40:26Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文参考訳（メタデータ） (2021-08-30T07:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。