Fugu-MT 論文翻訳(概要): AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA

論文の概要: AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA

arxiv url: http://arxiv.org/abs/2604.21766v1
Date: Thu, 23 Apr 2026 15:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-24 14:40:06.679982
Title: AUDITA: A New Dataset to Audit Humans vs. AI Skill at Audio QA
Title（参考訳）: AUDITA: Audit Humans vs. AI Skill at Audio QA
Authors: Tasnim Kabir, Dmytro Kurdydyk, Aadi Palnitkar, Liam Dorn, Ahmed Haj Ahmed, Jordan Lee Boyd-Graber,
Abstract要約: AUDITAは、表面レベルの音響認識以上の音響推論を厳格に評価する大規模な実世界のベンチマークである。人間の平均精度32.13%は、両方の課題を示しながら、音声の有意義な理解を示している。最先端の音声質問応答モデルは性能が悪く、平均精度は8.86%以下である。
参考スコア（独自算出の注目度）: 7.0864879068510005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing audio question answering benchmarks largely emphasize sound event classification or caption-grounded queries, often enabling models to succeed through shortcut strategies, short-duration cues, lexical priors, dataset-specific biases, or even bypassing audio via metadata and captions rather than genuine reasoning Thus, we present AUDITA (Audio Understanding from Diverse Internet Trivia Authors), a large-scale, real-world benchmark to rigorously evaluate audio reasoning beyond surface-level acoustic recognition. AUDITA comprises carefully curated, human-authored trivia questions grounded in real-world audio, designed to stress robust auditory reasoning through challenging distractors and long-range temporal dependencies, using probing queries that cannot be answered from isolated text or sound cues alone. Human average accuracy of 32.13% shows both the challenge of the task while demonstrating meaningful comprehension of the audio. In stark contrast, state of-the-art audio question answering models perform poorly, with average accuracy below 8.86%. Beyond raw accuracy, we apply Item Response Theory (IRT) to estimate latent proficiency, question difficulty, and expose systematic deficiencies of the models and data.
Abstract（参考訳）: 既存の音声質問応答ベンチマークは、主に音声イベント分類やキャプショングラウンドドクエリを強調しており、多くの場合、ショートカット戦略、ショートデュレーションキュー、レキシカルプレックス、データセット固有のバイアス、さらには真理ではなくメタデータやキャプションを介してオーディオをバイパスすることさえ可能であり、また、大規模で実世界のベンチマークであるAUDITA(Audio Understanding from Diverse Internet Trivia Authors)を提示する。 AUDITAは、現実世界のオーディオに根ざした人間によるトリヴィアの質問を慎重にキュレートし、難易度の高いイントラクタと長時間の時間的依存を通じて頑健な聴覚推論を強調するように設計されている。人間の平均精度32.13%は、両方の課題を示しながら、音声の有意義な理解を示している。対照的に、最先端の音声質問応答モデルはパフォーマンスが悪く、平均精度は8.86%以下である。生の精度を超えた項目応答理論(IRT)を応用し、潜在能力の推定、難問、およびモデルとデータの体系的欠陥を明らかにする。

関連論文リスト

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models [30.18524844766061]
HalluAudioは、音声、環境音、音楽の幻覚を評価するための最初の大規模ベンチマークである。 HalluAudioは、5万以上の人間による検証されたQAペアで構成され、バイナリ判断、複数選択推論、属性検証、オープンエンドQAなど、さまざまなタスクタイプにまたがる。以上の結果から, 音場, 時間的推論, 音楽属性の理解において, 信頼性とロバスト性を考慮したLALMの必要性が示唆された。
論文参考訳（メタデータ） (2026-04-21T10:05:28Z)
HumMusQA: A Human-written Music Understanding QA Benchmark Dataset [2.7761207021407217]
本稿では,音楽教育の専門家による手書き質問320件の新しいデータセットを提案する。このデータセットの使用を実証するため、6つの最先端のLALMをベンチマークし、一様ショートカットに対するロバスト性をテストした。
論文参考訳（メタデータ） (2026-03-29T21:33:07Z)
AQUA-Bench: Beyond Finding Answers to Knowing When There Are None in Audio Question Answering [58.04745279785462]
Aqua-Benchは、Audio Question Unanswerability Assessmentのベンチマークである。提案手法は,Absent Answer Detection,Incompatible Answer Set Detection,Incompatible Audio Question Detectionの3つのシナリオを体系的に評価する。これらのケースを評価することで、Aqua-Benchはモデルの信頼性を厳格に測定する。
論文参考訳（メタデータ） (2026-01-18T03:55:28Z)
MDAR: A Multi-scene Dynamic Audio Reasoning Benchmark [64.89810922949984]
本稿では,複雑なマルチシーン,動的に進化する音声推論タスクのモデルを評価するためのベンチマークMDARを紹介する。 MDARは、様々なオーディオクリップにリンクされた3000の慎重にキュレートされた質問応答ペアから構成される。 MDAR上で26の最先端オーディオ言語モデルをベンチマークし、それらが複雑な推論タスクに制限があることを観察する。
論文参考訳（メタデータ） (2025-09-26T15:12:46Z)
WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。 WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文参考訳（メタデータ） (2025-08-28T16:29:46Z)
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (2025-05-12T09:04:16Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。