論文の概要: AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech
- arxiv url: http://arxiv.org/abs/2602.23649v1
- Date: Fri, 27 Feb 2026 03:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.232846
- Title: AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech
- Title(参考訳): AudioCapBench: 音、音楽、音声間のオーディオキャプションのクイック評価
- Authors: Jielin Qiu, Jianguo Zhang, Zixiang Chen, Liangwei Yang, Ming Zhu, Juntao Tan, Haolin Chen, Wenting Zhao, Rithesh Murthy, Roshan Ram, Akshara Prabhakar, Shelby Heinecke, Caiming, Xiong, Silvio Savarese, Huan Wang,
- Abstract要約: 本稿では,大規模マルチモーダルモデルの音声キャプション機能を評価するベンチマークであるAudioCapBenchを紹介する。
我々は、参照ベースのメトリクス(METEOR、BLEU、ROUGE-L)とLLM-as-Judgeフレームワークを使用して、2つのプロバイダ(OpenAI、Google Gemini)にわたる13のモデルを評価する。
- 参考スコア(独自算出の注目度): 56.08149157180447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AudioCapBench, a benchmark for evaluating audio captioning capabilities of large multimodal models. \method covers three distinct audio domains, including environmental sound, music, and speech, with 1,000 curated evaluation samples drawn from established datasets. We evaluate 13 models across two providers (OpenAI, Google Gemini) using both reference-based metrics (METEOR, BLEU, ROUGE-L) and an LLM-as-Judge framework that scores predictions on three orthogonal dimensions: \textit{accuracy} (semantic correctness), \textit{completeness} (coverage of reference content), and \textit{hallucination} (absence of fabricated content). Our results reveal that Gemini models generally outperform OpenAI models on overall captioning quality, with Gemini~3~Pro achieving the highest overall score (6.00/10), while OpenAI models exhibit lower hallucination rates. All models perform best on speech captioning and worst on music captioning. We release the benchmark as well as evaluation code to facilitate reproducible audio understanding research.
- Abstract(参考訳): 本稿では,大規模マルチモーダルモデルの音声キャプション機能を評価するベンチマークであるAudioCapBenchを紹介する。
\methodは、環境音、音楽、音声を含む3つの異なるオーディオ領域をカバーする。
我々は,参照ベースメトリクス(METEOR,BLEU,ROUGE-L)とLLM-as-Judgeフレームワークの両方を用いて,2つのプロバイダ(OpenAI,Google Gemini)にわたる13のモデルを評価する。
以上の結果から,Geminiモデルは総字幕品質でOpenAIモデルを上回っ,Gemini~3〜Proは最高スコア(6.00/10)を達成し,OpenAIモデルは低い幻覚率を示した。
すべてのモデルは、音声キャプションで最高のパフォーマンスを示し、音楽キャプションでは最悪である。
再現性のある音声理解研究を容易にするための評価コードとベンチマークをリリースする。
関連論文リスト
- Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。
本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文 参考訳(メタデータ) (2026-02-18T18:32:46Z) - Eureka-Audio: Triggering Audio Intelligence in Compact Language Models [28.38037427018435]
Eureka-Audioはコンパクトで高性能なオーディオ言語モデルであり,大規模モデルに対する競合性能を実現する。
Eureka-Audioは1.7Bパラメータしか含まないが、自動音声認識(ASR)、音声理解、高密度音声キャプションに強い性能を示す。
パラ言語推論をさらに強化するために,閉ループ音声命令データ合成と検証パイプラインであるDataFluxを導入する。
論文 参考訳(メタデータ) (2026-02-15T02:01:08Z) - UltraEval-Audio: A Unified Framework for Comprehensive Evaluation of Audio Foundation Models [36.71750531005594]
UltraEval-Audioは、オーディオ基礎モデルの統一評価フレームワークである。
10の言語と14のコアタスクカテゴリをサポートし、24の主流モデルと36の信頼できるベンチマークをシームレスに統合する。
オーディオコーデックに新しい包括的評価手法を採用し、3つの重要な領域で性能を評価する。
論文 参考訳(メタデータ) (2026-01-04T04:54:12Z) - JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-14T17:23:21Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion [14.43138123445589]
高品質で大規模な音声キャプションは、音声理解の進歩に不可欠である。
現在の自動化手法は、細かな細部や文脈の正確さに欠けるキャプションを生成することが多い。
本稿では,複雑な音声環境のよりきめ細やかで正確な理解方法を提案する。
論文 参考訳(メタデータ) (2025-06-01T18:29:17Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。