論文の概要: Pardon? Evaluating Conversational Repair in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2601.12973v1
- Date: Mon, 19 Jan 2026 11:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.883186
- Title: Pardon? Evaluating Conversational Repair in Large Audio-Language Models
- Title(参考訳): パードン? : 大規模音声言語モデルにおける会話修復の評価
- Authors: Shuanghong Huang, Jinlei Xu, Youchao Zhou, Yanghao Zhou, Xuan Zhao, Chong Feng, Wenxuan Zhang,
- Abstract要約: 本稿では,解答可能な音声入力と解答不能な音声入力を区別する補修対応評価設定を提案する。
本研究では, 応答性のある条件下でのタスク能力と予測不能な条件下での修復動作を協調的に評価する非補償指標であるEvaluability Awareness and repair (EAR) スコアを提案する。
- 参考スコア(独自算出の注目度): 15.682992943165994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have demonstrated strong performance in spoken question answering (QA), with existing evaluations primarily focusing on answer accuracy and robustness to acoustic perturbations. However, such evaluations implicitly assume that spoken inputs remain semantically answerable, an assumption that often fails in real-world interaction when essential information is missing. In this work, we introduce a repair-aware evaluation setting that explicitly distinguishes between answerable and unanswerable audio inputs. We define answerability as a property of the input itself and construct paired evaluation conditions using a semantic-acoustic masking protocol. Based on this setting, we propose the Evaluability Awareness and Repair (EAR) score, a non-compensatory metric that jointly evaluates task competence under answerable conditions and repair behavior under unanswerable conditions. Experiments on two spoken QA benchmarks across diverse LALMs reveal a consistent gap between answer accuracy and conversational reliability: while many models perform well when inputs are answerable, most fail to recognize semantic unanswerability and initiate appropriate conversational repair. These findings expose a limitation of prevailing accuracy-centric evaluation practices and motivate reliability assessments that treat unanswerable inputs as cues for repair and continued interaction.
- Abstract(参考訳): LALM(Large Audio-Language Models)は,音響摂動に対する応答精度と頑健性に着目した音声質問応答(QA)において,高い性能を示す。
しかし、このような評価は、音声入力が意味論的に答えられるままであると暗黙的に仮定する。
本研究では,解答可能な音声入力と解答不能な音声入力を明確に区別する補修対応評価設定を提案する。
我々は、応答可能性を入力自体の特性として定義し、意味音響マスキングプロトコルを用いてペア評価条件を構築する。
この設定に基づいて, 応答性条件下でのタスク能力と不可解な条件下での修復動作を協調的に評価する非補償指標であるEvaluability Awareness and repair (EAR) スコアを提案する。
様々なLALMを対象とした2つのQAベンチマークの実験では、答えの正確さと会話の信頼性の間に一貫したギャップがあることが示されている。
これらの知見は、精度中心評価の慣行の限界を明らかにし、解決不可能な入力を修復と継続的な相互作用のための手がかりとして扱う信頼性評価を動機付けている。
関連論文リスト
- AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering [58.04745279785462]
Aqua-Benchは、Audio Question Unanswerability Assessmentのベンチマークである。
提案手法は,Absent Answer Detection,Incompatible Answer Set Detection,Incompatible Audio Question Detectionの3つのシナリオを体系的に評価する。
これらのケースを評価することで、Aqua-Benchはモデルの信頼性を厳格に測定する。
論文 参考訳(メタデータ) (2026-01-18T03:55:28Z) - AEQ-Bench: Measuring Empathy of Omni-Modal Large Models [55.722881748046895]
AEQ-Benchは、Omni-modal large model(OLM)の2つのコア共感能力を評価するための新しいベンチマークである。
AEQ-Benchは、文脈特異性と音声のトーンに異なる2つの新しい設定を取り入れている。
言語的・パラ言語的な指標の総合的な評価は、OLMが音声出力能力で訓練された場合、一般的にテキストのみの出力を持つモデルよりも優れていたことを示している。
論文 参考訳(メタデータ) (2026-01-15T15:39:50Z) - CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering [9.50840225852638]
Conditional Ambiguous Question-Answering (CondAmbigQA) は2000の曖昧なクエリと条件対応評価指標からなるベンチマークである。
実験により、回答前の条件を考慮したモデルでは解答精度が11.75%向上し、条件が明示された場合にさらに7.15%向上することが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:01:51Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries [16.283468528293568]
本研究では,ノイズの多い質問を認識・修正するエージェントの能力を評価するために,ノイズEQAベンチマークを導入する。
このベンチマークでは、現実のアプリケーションで見られる4つの一般的なノイズ(潜在幻覚ノイズ、メモリノイズ、知覚ノイズ、セマンティックノイズ)を紹介します。
また,ノイズ検出能力と応答品質の両方を向上・測定する「自己補正」機構と,新たな評価指標を提案する。
論文 参考訳(メタデータ) (2024-12-14T07:52:24Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。