論文の概要: BRACE: A Benchmark for Robust Audio Caption Quality Evaluation
- arxiv url: http://arxiv.org/abs/2512.10403v1
- Date: Thu, 11 Dec 2025 08:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.271761
- Title: BRACE: A Benchmark for Robust Audio Caption Quality Evaluation
- Title(参考訳): BRACE:ロバストなオーディオキャプション品質評価のためのベンチマーク
- Authors: Tianyu Guo, Hongyu Chen, Hao Liang, Meiyi Qiang, Bohan Zeng, Linzhuang Sun, Bin Cui, Wentao Zhang,
- Abstract要約: BRACEは、参照なし環境でのオーディオアライメント品質を評価するために設計された新しいベンチマークである。
BRACEは、細かな字幕比較のためのBRACE-Mainと微妙な幻覚内容を検出するBRACE-Hallucinationの2つのサブベンチマークから構成される。
BRACEベンチマークを用いて,各種CLAPモデルでCLAPScoreを試験し,複数のLALMを評価した。
- 参考スコア(独自算出の注目度): 23.704921982469063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic audio captioning is essential for audio understanding, enabling applications such as accessibility and content indexing. However, evaluating the quality of audio captions remains a major challenge, especially in reference-free settings where high-quality ground-truth captions are unavailable. While CLAPScore is currently the most widely used reference-free Audio Caption Evaluation Metric(ACEM), its robustness under diverse conditions has not been systematically validated. To address this gap, we introduce BRACE, a new benchmark designed to evaluate audio caption alignment quality in a reference-free setting. BRACE is primarily designed for assessing ACEMs, and can also be extended to measure the modality alignment abilities of Large Audio Language Model(LALM). BRACE consists of two sub-benchmarks: BRACE-Main for fine-grained caption comparison and BRACE-Hallucination for detecting subtle hallucinated content. We construct these datasets through high-quality filtering, LLM-based corruption, and human annotation. Given the widespread adoption of CLAPScore as a reference-free ACEM and the increasing application of LALMs in audio-language tasks, we evaluate both approaches using the BRACE benchmark, testing CLAPScore across various CLAP model variants and assessing multiple LALMs. Notably, even the best-performing CLAP-based ACEM achieves only a 70.01 F1-score on the BRACE-Main benchmark, while the best LALM reaches just 63.19. By revealing the limitations of CLAP models and LALMs, our BRACE benchmark offers valuable insights into the direction of future research.
- Abstract(参考訳): 自動音声キャプションは、アクセシビリティやコンテンツインデクシングなどの応用を可能にするオーディオ理解に不可欠である。
しかし、特に高品質の接頭辞が利用できない参照のない環境では、オーディオキャプションの品質を評価することが大きな課題である。
CLAPScoreは現在、最も広く使われているリファレンスフリーオーディオキャプチャ評価基準(ACEM)であるが、様々な条件下での堅牢性は体系的に検証されていない。
このギャップに対処するために、参照不要な環境でのオーディオアライメント品質を評価するための新しいベンチマークBRACEを導入する。
BRACEは主にACEMを評価するために設計されており、Large Audio Language Model(LALM)のモードアライメント能力を測定するために拡張することもできる。
BRACEは、細かな字幕比較のためのBRACE-Mainと微妙な幻覚内容を検出するBRACE-Hallucinationの2つのサブベンチマークから構成される。
我々はこれらのデータセットを,高品質なフィルタリング,LLMに基づく汚職,人間のアノテーションによって構築する。
参照レスACEMとしてCLAPScoreが広く採用され,音声言語タスクにおけるLALMの適用が増加していることを踏まえ,BRACEベンチマークを用いてCLAPScoreを様々なCLAPモデルでテストし,複数のLALMを評価する。
特に、最も優れたCLAPベースのACEMでさえ、BRACE-Mainベンチマークで70.01F1スコアしか達成せず、最高のLALMは63.19にしか達していない。
CLAPモデルとLALMの限界を明らかにすることで、BRACEベンチマークは将来の研究の方向性に関する貴重な洞察を提供する。
関連論文リスト
- AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation [16.047087043580053]
MLLM(Multimodal Large Language Models)は、音声や音楽に広く応用されている。
意味のみのテキストトークンとは異なり、音声トークンはグローバルな意味的コンテンツをキャプチャし、きめ細かい音響的詳細を保存する必要がある。
本稿では,意味的および音響的トークンの適切な定義を提供し,体系的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T14:15:22Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews [0.9314555897827079]
体系的な文献レビューは、トピックに関するすべての関連論文を特定し評価することを目的としている。
現在までに、大型言語モデル(LLM)を用いた抽象的なスクリーニング手法はバイナリ分類設定に重点を置いている。
ゼロショットLLMガイド付き抽象ランクラであるLGARを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:18:50Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。