論文の概要: AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering
- arxiv url: http://arxiv.org/abs/2601.12248v1
- Date: Sun, 18 Jan 2026 03:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.525452
- Title: AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering
- Title(参考訳): Aqua-Bench: 音声質問の回答に誰もいないときの回答以外のもの
- Authors: Chun-Yi Kuan, Hung-yi Lee,
- Abstract要約: Aqua-Benchは、Audio Question Unanswerability Assessmentのベンチマークである。
提案手法は,Absent Answer Detection,Incompatible Answer Set Detection,Incompatible Audio Question Detectionの3つのシナリオを体系的に評価する。
これらのケースを評価することで、Aqua-Benchはモデルの信頼性を厳格に測定する。
- 参考スコア(独自算出の注目度): 58.04745279785462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in audio-aware large language models have shown strong performance on audio question answering. However, existing benchmarks mainly cover answerable questions and overlook the challenge of unanswerable ones, where no reliable answer can be inferred from the audio. Such cases are common in real-world settings, where questions may be misleading, ill-posed, or incompatible with the information. To address this gap, we present AQUA-Bench, a benchmark for Audio Question Unanswerability Assessment. It systematically evaluates three scenarios: Absent Answer Detection (the correct option is missing), Incompatible Answer Set Detection (choices are categorically mismatched with the question), and Incompatible Audio Question Detection (the question is irrelevant or lacks sufficient grounding in the audio). By assessing these cases, AQUA-Bench offers a rigorous measure of model reliability and promotes the development of audio-language systems that are more robust and trustworthy. Our experiments suggest that while models excel on standard answerable tasks, they often face notable challenges with unanswerable ones, pointing to a blind spot in current audio-language understanding.
- Abstract(参考訳): 音声対応大規模言語モデルの最近の進歩は、音声質問応答に強いパフォーマンスを示している。
しかし、既存のベンチマークは、主に回答可能な質問をカバーし、オーディオから信頼できる回答を推測できない、解決不可能な質問の課題を見落としている。
このようなケースは、質問が誤解を招いたり、偽造されたり、情報と相容れないような現実世界でよく見られる。
このギャップに対処するために、Aqua-BenchというAudio Question Unanswerability Assessmentのベンチマークを提示する。
これは3つのシナリオを体系的に評価する: 絶対回答検出(正しい選択肢が欠落している)、不適合回答セット検出(選択は質問と分類ミスマッチしている)、非互換音声質問検出(質問は無関係かオーディオに十分な根拠がない)。
これらのケースを評価することで、Aqua-Benchはモデルの信頼性を厳格に測定し、より堅牢で信頼性の高い音声言語システムの開発を促進する。
私たちの実験では、モデルは標準の回答可能なタスクに優れていますが、解決不可能なタスクでは顕著な課題に直面し、現在の音声言語理解の盲点を指し示しています。
関連論文リスト
- MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark [64.89810922949984]
本稿では,複雑なマルチシーン,動的に進化する音声推論タスクのモデルを評価するためのベンチマークMDARを紹介する。
MDARは、様々なオーディオクリップにリンクされた3000の慎重にキュレートされた質問応答ペアから構成される。
MDAR上で26の最先端オーディオ言語モデルをベンチマークし、それらが複雑な推論タスクに制限があることを観察する。
論文 参考訳(メタデータ) (2025-09-26T15:12:46Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Audiopedia: Audio QA with Knowledge [0.0]
本稿では,Audiopediaという,Audio Question Answering with Knowledgeという新しいタスクを紹介する。
従来のAQA(Audio Question Answering)ベンチマークとは異なり、Audiopediaは知識集約的な質問をターゲットにしている。
我々は,これらのサブタスク上で大規模音声言語モデル (LALM) をベンチマークし,準最適性能を観察する。
LALMに適応可能な汎用フレームワークを提案し,知識推論機能を備える。
論文 参考訳(メタデータ) (2024-12-29T23:48:35Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that
Don't have a Definitive Answer? [43.03399918557937]
現実世界のアプリケーションでは、ユーザは決定的な答えを持たない質問をすることが多い。
QnotAは、明確な答えを持たない5つのカテゴリの質問からなるデータセットである。
このデータを用いて、システムの「識別」、「識別」、QnotA質問を「正当化」する能力をテストする3つの評価タスクを定式化する。
GPT-3 や Flan T5 といった SOTA モデルでさえ,これらのタスクはうまく行っていない。
論文 参考訳(メタデータ) (2023-09-08T23:12:03Z) - Selectively Answering Ambiguous Questions [38.83930394700588]
我々は, サンプルモデル出力における繰り返しの定量化が, 退避時期を決定する最も信頼性の高い手法であることが判明した。
その結果,サンプリングに基づく信頼度スコアは,比較的あいまいな質問に対する回答のキャリブレーションに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-24T01:25:38Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - NoiseQA: Challenge Set Evaluation for User-Centric Question Answering [68.67783808426292]
応答エンジンに先立つパイプライン内のコンポーネントが,多種多様なエラーの原因を発生させることができることを示す。
我々は、QAシステムが効果的にデプロイされる前に、進歩の余地がかなりあると結論付けている。
論文 参考訳(メタデータ) (2021-02-16T18:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。