論文の概要: AURA Score: A Metric For Holistic Audio Question Answering Evaluation
- arxiv url: http://arxiv.org/abs/2510.04934v1
- Date: Mon, 06 Oct 2025 15:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.950498
- Title: AURA Score: A Metric For Holistic Audio Question Answering Evaluation
- Title(参考訳): AURA Score: ホロスティックな音声質問応答評価のためのメトリクス
- Authors: Satvik Dixit, Soham Deshmukh, Bhiksha Raj,
- Abstract要約: AQAメトリクスのシステマティックなベンチマークを可能にするために、AQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために、複数の人間が注釈付けした10kモデル応答で構成されている。
第2に、既存のAQAメトリクスをAQEval上で総合的に分析し、人間の判断と弱い相関を明らかにする。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
- 参考スコア(独自算出の注目度): 57.042210272137396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Question Answering (AQA) is a key task for evaluating Audio-Language Models (ALMs), yet assessing open-ended responses remains challenging. Existing metrics used for AQA such as BLEU, METEOR and BERTScore, mostly adapted from NLP and audio captioning, rely on surface similarity and fail to account for question context, reasoning, and partial correctness. To address the gap in literature, we make three contributions in this work. First, we introduce AQEval to enable systematic benchmarking of AQA metrics. It is the first benchmark of its kind, consisting of 10k model responses annotated by multiple humans for their correctness and relevance. Second, we conduct a comprehensive analysis of existing AQA metrics on AQEval, highlighting weak correlation with human judgment, especially for longer answers. Third, we propose a new metric - AURA score, to better evaluate open-ended model responses. On AQEval, AURA achieves state-of-the-art correlation with human ratings, significantly outperforming all baselines. Through this work, we aim to highlight the limitations of current AQA evaluation methods and motivate better metrics. We release both the AQEval benchmark and the AURA metric to support future research in holistic AQA evaluation.
- Abstract(参考訳): AQA(Audio Question Answering)は、ALM(Audio-Language Models)を評価する上で重要なタスクである。
BLEU、METEOR、BERTScoreといった既存のAQAのメトリクスは、主にNLPやオーディオキャプションに適応しており、表面の類似性に依存しており、質問コンテキスト、推論、部分的正当性を説明できない。
文学のギャップに対処するため,本研究に3つの貢献をしている。
まず、AQAメトリクスのシステマティックなベンチマークを可能にするためにAQEvalを導入します。
これはこの種の最初のベンチマークであり、その正確さと妥当性のために複数の人間が注釈を付けた10kモデル応答で構成されている。
第2に、AQEval上の既存のAQAメトリクスを包括的に分析し、特に長い回答において、人間の判断との弱い相関を強調します。
第3に、オープンなモデル応答をよりよく評価するための新しい指標であるAURAスコアを提案する。
AQEvalでは、AURAは人間の評価と最先端の相関を達成し、すべてのベースラインを大幅に上回っている。
本研究は、現在のAQA評価手法の限界を強調し、より良いメトリクスを動機付けることを目的としている。
我々は、AQEvalベンチマークとAURAメトリックの両方をリリースし、AQA評価における今後の研究を支援する。
関連論文リスト
- Uncertainty Quantification in Retrieval Augmented Question Answering [45.573346610161195]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。
我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文 参考訳(メタデータ) (2025-02-25T11:24:52Z) - A Comprehensive Survey of Action Quality Assessment: Method and Benchmark [25.694556140797832]
行動品質評価(AQA)は、人間の行動の質を定量的に評価し、人間の判断におけるバイアスを減らす自動評価を提供する。
近年のAQAの進歩は革新的手法を導入しているが、類似の手法は異なる領域にまたがることが多い。
統一されたベンチマークと限定的な計算比較の欠如は、AQAアプローチの一貫性のある評価と公正な評価を妨げている。
論文 参考訳(メタデータ) (2024-12-15T10:47:26Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。
オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文 参考訳(メタデータ) (2023-05-21T10:40:55Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - ASQ: Automatically Generating Question-Answer Pairs using AMRs [1.0878040851638]
AMR(Abstract Meaning Representation)を用いて,質問や回答を自動的に文から抽出するツールASQを紹介する。
AMR 2.0データからASQが生成した出力の質的評価は、問合せ対が自然で有効であることを示す。
私たちはこのツールと結果を公開して、他の人が使用して構築できるようにするつもりです。
論文 参考訳(メタデータ) (2021-05-20T20:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。