Fugu-MT 論文翻訳(概要): HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

論文の概要: HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

arxiv url: http://arxiv.org/abs/2604.19300v1
Date: Tue, 21 Apr 2026 10:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.716617
Title: HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models
Title（参考訳）: HalluAudio:大規模オーディオ言語モデルにおける幻覚検出のための総合的ベンチマーク
Authors: Feiyu Zhao, Yiming Chen, Wenhuan Lu, Daipeng Zhang, Xianghu Yue, Jianguo Wei,
Abstract要約: HalluAudioは、音声、環境音、音楽の幻覚を評価するための最初の大規模ベンチマークである。 HalluAudioは、5万以上の人間による検証されたQAペアで構成され、バイナリ判断、複数選択推論、属性検証、オープンエンドQAなど、さまざまなタスクタイプにまたがる。以上の結果から, 音場, 時間的推論, 音楽属性の理解において, 信頼性とロバスト性を考慮したLALMの必要性が示唆された。
参考スコア（独自算出の注目度）: 30.18524844766061
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Audio-Language Models (LALMs) have recently achieved strong performance across various audio-centric tasks. However, hallucination, where models generate responses that are semantically incorrect or acoustically unsupported, remains largely underexplored in the audio domain. Existing hallucination benchmarks mainly focus on text or vision, while the few audio-oriented studies are limited in scale, modality coverage, and diagnostic depth. We therefore introduce HalluAudio, the first large-scale benchmark for evaluating hallucinations across speech, environmental sound, and music. HalluAudio comprises over 5K human-verified QA pairs and spans diverse task types, including binary judgments, multi-choice reasoning, attribute verification, and open-ended QA. To systematically induce hallucinations, we design adversarial prompts and mixed-audio conditions. Beyond accuracy, our evaluation protocol measures hallucination rate, yes/no bias, error-type analysis, and refusal rate, enabling a fine-grained analysis of LALM failure modes. We benchmark a broad range of open-source and proprietary models, providing the first large-scale comparison across speech, sound, and music. Our results reveal significant deficiencies in acoustic grounding, temporal reasoning, and music attribute understanding, underscoring the need for reliable and robust LALMs.
Abstract（参考訳）: LALM(Large Audio-Language Models)は、近年、様々なオーディオ中心のタスクにおいて、強力なパフォーマンスを実現している。しかし、モデルが意味的に不正確または音響的にサポートされていない応答を生成する幻覚は、音声領域においてほとんど未発見のままである。既存の幻覚ベンチマークは主にテキストや視覚に焦点を当てているが、音声指向の研究はスケール、モダリティのカバー範囲、診断深度に限られている。そこでHauAudioは,音声,環境音,音楽の幻覚を評価するための,最初の大規模ベンチマークである。 HalluAudioは、5万以上の人間による検証されたQAペアで構成され、バイナリ判断、複数選択推論、属性検証、オープンエンドQAなど、さまざまなタスクタイプにまたがる。本研究は,幻覚を系統的に誘発するために,逆方向のプロンプトと混合音響条件を設計する。評価プロトコルは, 精度を超えて幻覚率, yes/no バイアス, エラー型解析, 拒絶率を測定し, LALM故障モードのきめ細かい解析を可能にする。我々は、幅広いオープンソースとプロプライエタリなモデルをベンチマークし、音声、サウンド、音楽の大規模な比較を初めて提供する。以上の結果から,音場形成,時間的推論,音楽属性の理解に重大な欠陥があることが判明し,信頼性とロバストなLALMの必要性が示唆された。

関連論文リスト

Noise-Aware In-Context Learning for Hallucination Mitigation in ALLMs [5.553031534100783]
聴覚的大言語モデル(ALLM)は、音声理解と推論タスクにおいて強力な汎用性を実証している。幻覚問題に対処するために,NAICL(Noss-Aware In-Context Learning)法を提案する。
論文参考訳（メタデータ） (2026-04-10T06:35:46Z)
SAM Audio Judge: A Unified Multimodal Framework for Perceptual Evaluation of Audio Separation [52.468945848774844]
本稿では,人間の介入なしに音声の分離を評価できる自動システムの必要性に対処する。提案した評価指標であるSAM Audio Judge (SAJ) は, マルチモーダルな細粒度参照自由度尺度である。 SAJは3つのオーディオドメイン(音声、音楽、一般的な音声イベント)と3つのインプット(テキスト、視覚、スパン)をサポートし、4つの異なる評価次元をカバーする。
論文参考訳（メタデータ） (2026-01-27T15:29:02Z)
JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文参考訳（メタデータ） (2025-12-14T17:23:21Z)
Spatial Blind Spot: Auditory Motion Perception Deficits in Audio LLMs [39.209987830131816]
LALM(Large Audio-Language Models)は近年,音声認識,音声キャプション,聴覚質問応答において顕著な進歩を見せている。しかし、これらのモデルが力学、特に音源の動きを知覚できるかどうかは不明だ。 AMPBenchは聴覚動作の理解を評価するために設計された最初のベンチマークである。
論文参考訳（メタデータ） (2025-11-17T11:45:41Z)
Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding [54.82619273983179]
LALM(Large Audio-Language Models)は、オーディオに提示されるものを幻覚させる。 LALMの幻覚を軽減するためにオーディオ・アウェア・デコーディング(AAD)を導入する。 AADはコントラストデコーディングを使用して、トークン予測ログとオーディオコンテキストの有無を比較します。
論文参考訳（メタデータ） (2025-06-08T17:36:50Z)
AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。 AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文参考訳（メタデータ） (2024-10-23T23:36:06Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。 11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文参考訳（メタデータ） (2024-09-27T12:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。