論文の概要: AHA: Aligning Large Audio-Language Models for Reasoning Hallucinations via Counterfactual Hard Negatives
- arxiv url: http://arxiv.org/abs/2512.24052v2
- Date: Sun, 04 Jan 2026 01:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.724234
- Title: AHA: Aligning Large Audio-Language Models for Reasoning Hallucinations via Counterfactual Hard Negatives
- Title(参考訳): AHA: 有害なハードネガティクスによる幻覚を再現する大規模オーディオ言語モデル
- Authors: Yanxi Chen, Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Xin Li, Peijie Qiu, Hao Wang, Xuanzhao Dong, Yujian Xiong, Anderson Schneider, Yuriy Nevmyvaka, Yalin Wang,
- Abstract要約: AHA(Audio Hallucination Alignment)フレームワークを紹介します。
Qwen-Audio-AHAはAHA-Evalを13.7%改善した。
我々のモデルは、公開ベンチマークでかなりの伸びを示している。
- 参考スコア(独自算出の注目度): 22.61430597408294
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although Large Audio-Language Models (LALMs) deliver state-of-the-art (SOTA) performance, they frequently suffer from hallucinations, e.g. generating text not grounded in the audio input. We analyze these grounding failures and identify a distinct taxonomy: Event Omission, False Event Identity, Temporal Relation Error, and Quantitative Temporal Error. To address this, we introduce the AHA (Audio Hallucination Alignment) framework. By leveraging counterfactual hard negative mining, our pipeline constructs a high-quality preference dataset that forces models to distinguish strict acoustic evidence from linguistically plausible fabrications. Additionally, we establish AHA-Eval, a diagnostic benchmark designed to rigorously test these fine-grained temporal reasoning capabilities. We apply this data to align Qwen2.5-Omni. The resulting model, Qwen-Audio-AHA, achieves a 13.7% improvement on AHA-Eval. Crucially, this benefit generalizes beyond our diagnostic set. Our model shows substantial gains on public benchmarks, including 1.3% on MMAU-Test and 1.6% on MMAR, outperforming latest SOTA methods. The model and dataset are open-sourced at https://github.com/LLM-VLM-GSL/AHA.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、最先端のSOTA(State-of-the-art)のパフォーマンスを提供するが、しばしば幻覚に悩まされる。
我々は、これらの基礎的失敗を分析し、イベントの欠落、偽イベントの同一性、時間的関係の誤り、量的時間的誤りを識別する。
これを解決するために、AHA(Audio Hallucination Alignment)フレームワークを紹介します。
対物的強硬な負のマイニングを活用することで、我々のパイプラインは、厳密な音響的証拠と言語学的に妥当な製造物とを区別するようモデルに強制する高品質な選好データセットを構築する。
さらに、これらの微細な時間的推論能力を厳格にテストするために設計された診断ベンチマークであるAHA-Evalを確立する。
このデータをQwen2.5-Omniの整列に適用する。
結果、Qwen-Audio-AHAはAHA-Evalを13.7%改善した。
重要なことに、このメリットは診断セットを超えて一般化されます。
MMAU-Testが1.3%,MMARが1.6%,最新のSOTA法が1.6%を上回った。
モデルとデータセットはhttps://github.com/LLM-VLM-GSL/AHAで公開されている。
関連論文リスト
- HAD: HAllucination Detection Language Models Based on a Comprehensive Hallucination Taxonomy [48.68088917291552]
NLGタスクにまたがる11のカテゴリからなる総合的な幻覚分類を導入する。
本稿では,幻覚検出,スパンレベル同定,修正を単一の推論プロセスに統合するHAllucination Detection (HAD)モデルを提案する。
論文 参考訳(メタデータ) (2025-10-22T07:28:37Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - Lost in Transcription, Found in Distribution Shift: Demystifying Hallucination in Speech Foundation Models [36.327525062842724]
幻覚は特に医療、法務、航空などの高額な領域に関係している。
本研究では,分布変化やモデルサイズ,モデルアーキテクチャなどの要因が幻覚発生誤差率(HER)にどのように影響するかを検討する。
我々の研究は、ASRモデルの性能を評価するために、WERのような従来の指標とHERを併用することの重要性を強調した。
論文 参考訳(メタデータ) (2025-02-18T01:25:39Z) - The Unreliability of Acoustic Systems in Alzheimer's Speech Datasets with Heterogeneous Recording Conditions [11.00082412847855]
MFCC と Wav2vec 2.0 の2つの音響特性に基づくシステムにより,AD 患者を上向きの性能制御から識別できることが示されている。
本研究は,非標準化記録に基づく患者同定のための音響システムの使用に対する警告である。
論文 参考訳(メタデータ) (2024-09-11T20:50:45Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。