論文の概要: ORCA: Open-ended Response Correctness Assessment for Audio Question Answering
- arxiv url: http://arxiv.org/abs/2512.09066v1
- Date: Fri, 28 Nov 2025 14:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.578237
- Title: ORCA: Open-ended Response Correctness Assessment for Audio Question Answering
- Title(参考訳): ORCA:音声質問応答に対するオープンエンド応答精度評価
- Authors: Šimon Sedláček, Sara Barahona, Bolaji Yusuf, Laura Herrera-Alarcón, Santosh Kesiraju, Cecilia Bolaños, Alicia Lozano-Diez, Sathvik Udupa, Fernando López, Allison Ferner, Ramani Duraiswami, Jan Černocký,
- Abstract要約: 本研究では,予測精度と不確実性の両方を予測するために,ベータ分布を用いた人的判断の変動をモデル化するフレームワークORCAを提案する。
我々は15のLALMから11,721のアノテーションを収集し,0.82(クリッペンドルフのα)のアノテータ間契約を達成した。
- 参考スコア(独自算出の注目度): 41.72231074041232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating open-ended responses from large audio language models (LALMs) is challenging because human annotators often genuinely disagree on answer correctness due to multiple valid interpretations, partial correctness, and subjective judgment. Traditional metrics reporting only mean scores fail to capture this uncertainty. We present ORCA (Open-ended Response Correctness Assessment), a framework that models the variability in human judgments using Beta distributions to predict both expected correctness and uncertainty. Our three-stage annotation framework combines human judgment with structured feedback and iterative refinement to simultaneously curate training data and improve benchmark quality. We collected 11,721 annotations across 3,580 question-answer pairs from 15 LALMs on two audio QA benchmarks, achieving inter-annotator agreement of 0.82 (Krippendorff's alpha). ORCA achieves 0.91 Spearman correlation with mean human judgments, matching or outperforming LLM-judge baselines while providing uncertainty estimates and requiring significantly less compute. We release our models, code, and curated dataset.
- Abstract(参考訳): 複数の有効な解釈、部分的正当性、主観的判断により、人間のアノテータは答えの正当性について真に意見が一致しないことが多いため、大規模な音声言語モデル(LALM)からのオープンエンド応答の評価は困難である。
従来のメトリクスレポートでは、スコアだけがこの不確実性を捉えることができません。
ORCA(Open-ended Response Correctness Assessment)は,ベータ分布を用いた人間の判断の変動をモデル化し,予測された正しさと不確実性の両方を予測するフレームワークである。
我々の3段階のアノテーションフレームワークは、人間の判断と構造化されたフィードバックと反復的な改善を組み合わせることで、トレーニングデータを同時にキュレートし、ベンチマーク品質を向上させる。
我々は15のLALMから3,580の質問応答対に11,721のアノテーションを2つのオーディオQAベンチマークで収集し,0.82(クリッペンドルフのα)のアノテーション間契約を達成した。
ORCAは平均的な人間の判断と0.91のスピアマン相関を達成し、LLM-judgeベースラインの整合性や性能を向上し、不確実性の評価を提供し、計算量を大幅に削減する。
モデル、コード、およびキュレートされたデータセットをリリースします。
関連論文リスト
- Same Words, Different Judgments: Modality Effects on Preference Alignment [8.352948546053776]
我々は100のプロンプトで同一のセマンティックコンテンツをテキストと音声で評価する。
オーディオの好みはテキストと同じくらい信頼性があり、レイター間の合意は良好なレベルに達する。
オーディオラッカーは、より狭い決定しきい値、長さバイアスの低減、よりユーザ指向の評価基準を示す。
論文 参考訳(メタデータ) (2026-02-26T07:34:15Z) - Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement [1.5191981795942073]
本研究では,Large Language Models (LLMs) を応答精度評価タスクの判定対象として,新たな2段階評価手法を提案する。
RAG(Retrieval-Augmented Generation)やAgentic Pipelines(Agentic Pipelines)からの応答を、地上の真実の答えに対して評価すると、54個のLLMが人間の判断をいかにうまく再現できるかを評価する。
論文 参考訳(メタデータ) (2025-10-10T17:27:33Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。