Fugu-MT 論文翻訳(概要): AudioBench: A Universal Benchmark for Audio Large Language Models

論文の概要: AudioBench: A Universal Benchmark for Audio Large Language Models

arxiv url: http://arxiv.org/abs/2406.16020v4
Date: Wed, 06 Nov 2024 01:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.027823
Title: AudioBench: A Universal Benchmark for Audio Large Language Models
Title（参考訳）: AudioBench: オーディオ大言語モデルのためのユニバーサルベンチマーク
Authors: Bin Wang, Xunlong Zou, Geyu Lin, Shuo Sun, Zhuohan Liu, Wenyu Zhang, Zhengyuan Liu, AiTi Aw, Nancy F. Chen,
Abstract要約: 音声大言語モデル(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。 8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。評価は、音声理解、音声シーン理解、音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。
参考スコア（独自算出の注目度）: 41.46064884020139
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce AudioBench, a universal benchmark designed to evaluate Audio Large Language Models (AudioLLMs). It encompasses 8 distinct tasks and 26 datasets, among which, 7 are newly proposed datasets. The evaluation targets three main aspects: speech understanding, audio scene understanding, and voice understanding (paralinguistic). Despite recent advancements, there lacks a comprehensive benchmark for AudioLLMs on instruction following capabilities conditioned on audio signals. AudioBench addresses this gap by setting up datasets as well as desired evaluation metrics. Besides, we also evaluated the capabilities of five popular models and found that no single model excels consistently across all tasks. We outline the research outlook for AudioLLMs and anticipate that our open-sourced evaluation toolkit, data, and leaderboard will offer a robust testbed for future model developments.
Abstract（参考訳）: 我々はAudioLLMs(AudioLLMs)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。 8つの異なるタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。この評価は、音声理解、音声シーン理解、および音声理解(パラ言語学)の3つの主要な側面をターゲットにしている。最近の進歩にもかかわらず、オーディオ信号に条件付けされた命令に対するAudioLLMsの包括的なベンチマークが欠如している。 AudioBenchは、データセットと望ましい評価指標を設定することで、このギャップに対処する。さらに、5つの人気モデルの能力を評価し、すべてのタスクに一貫した一貫したモデルが存在しないことを発見した。我々は、AudioLLMsの研究見通しを概説し、我々のオープンソースの評価ツールキット、データ、およびリーダーボードが将来のモデル開発に堅牢なテストベッドを提供することを期待しています。

関連論文リスト

UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models [36.71750531005594]
UltraEval-Audioは、オーディオ基礎モデルの統一評価フレームワークである。 10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。オーディオコーデックに新しい包括的評価手法を採用し、3つの重要な領域で性能を評価する。
論文参考訳（メタデータ） (2026-01-04T04:54:12Z)
MiMo-Audio: Audio Language Models are Few-Shot Learners [87.95443029030969]
MiMo-Audio-7B-Baseは、音声変換、スタイル転送、音声編集などのトレーニングデータから欠落するタスクを一般化する。 MiMo-Audio-7B-Baseはまた、非常にリアルなトークショー、リサイクリング、ライブストリーミング、討論を生成できる強力な音声継続機能をデモしている。
論文参考訳（メタデータ） (2025-12-29T19:06:05Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
Discrete Audio Tokens: More Than a Survey! [107.69720675124255]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。音声、音楽、一般的なオーディオドメインをカバーしている。本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文参考訳（メタデータ） (2025-06-12T01:35:43Z)
IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models [18.11667976818302]
IFEval-Audioには、6つの異なる次元にわたる280のオーディオインストラクション回答トリプルが含まれている。各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
論文参考訳（メタデータ） (2025-05-22T15:15:29Z)
AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models [59.263938700476565]
我々は,AudioTrustを紹介した。Audio Large Language Models (ALLMs)のために設計された,最初の多面的信頼性評価フレームワークとベンチマークである。 AudioTrustは、公正性、幻覚、安全性、プライバシ、堅牢性、認証の6つの重要な側面にわたる評価を促進する。評価のために、ベンチマークは、9つの音響特性評価指標を慎重に設計し、大規模自動パイプラインを用いて、モデル出力の客観的かつスケーラブルなスコアリングを行う。
論文参考訳（メタデータ） (2025-05-22T04:27:46Z)
Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文参考訳（メタデータ） (2025-04-25T15:31:46Z)
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [95.45204813682885]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文参考訳（メタデータ） (2025-03-04T06:18:34Z)
Evaluation of Deep Audio Representations for Hearables [1.5646349560044959]
このデータセットは、30秒ごとに1,158曲のオーディオトラックを含み、空間的にプロプライエタリなモノローグと、日々の音響シーンの高品質な録音を混合して作成されている。本ベンチマークでは,音声シーンの一般的な文脈,音声ソース,技術的音響特性を評価する8つのタスクを網羅する。この優位性は、様々なオーディオコレクションで訓練されたモデルの利点を強調し、聴取可能なステアリングに必要な環境特性の符号化を含む幅広い聴覚タスクに適用可能であることを確認する。
論文参考訳（メタデータ） (2025-02-10T16:51:11Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。 11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文参考訳（メタデータ） (2024-09-27T12:06:53Z)
A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。 SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文参考訳（メタデータ） (2024-09-11T17:34:52Z)
PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores [18.26082503192707]
PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)スコアは,音声-視覚同期の質を評価する5点尺度を備えた新しい自動測定値である。実験では、Fr'eche'tをベースとしたオーディオ・ビジュアル同期の自然な拡張に対して、相対的な50%のゲインを観測した。
論文参考訳（メタデータ） (2024-04-10T20:32:24Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
HEAR 2021: Holistic Evaluation of Audio Representations [55.324557862041985]
HEAR 2021 NeurIPSの課題は、学習の強力な基盤を提供する汎用オーディオ表現を開発することである。 HEAR 2021は、音声、環境音、音楽を含む様々な領域にわたるベンチマークスイートを用いて、音声表現を評価する。 16個のデータセットから抽出した19種類の下流タスクに対して,13の外部チームによる2つのモデルを評価した。
論文参考訳（メタデータ） (2022-03-06T18:13:09Z)
Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文参考訳（メタデータ） (2022-01-31T21:32:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。