論文の概要: EvA: An Evidence-First Audio Understanding Paradigm for LALMs
- arxiv url: http://arxiv.org/abs/2603.27667v1
- Date: Sun, 29 Mar 2026 12:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.064419
- Title: EvA: An Evidence-First Audio Understanding Paradigm for LALMs
- Title(参考訳): EvA: LALMのためのエビデンスファーストオーディオ理解パラダイム
- Authors: Xinyuan Xie, Shunian Chen, Zhiheng Liu, Yuhao Zhang, Zhiqiang Lv, Liyin Liang, Benyou Wang,
- Abstract要約: EvA (Evidence-First Audio) は、Whisper と CED-Base を非圧縮・時間整合融合で組み合わせたデュアルパスアーキテクチャである。
EvA-Perceptionは、約54Kのイベント順序キャプション(150h)と約500KのQAペアを備えた、大規模なオープンソーストレーニングセットです。
統一されたゼロショットプロトコルの下では、EvAは、MMAU、MMAR、MMSUで最高のオープンソースパーセプションスコアを達成し、報告されたすべての指標でKim-Audio-7Bよりも改善され、知覚重分が最大となる。
- 参考スコア(独自算出の注目度): 32.05922674181507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio Language Models (LALMs) still struggle in complex acoustic scenes because they often fail to preserve task-relevant acoustic evidence before reasoning begins. We call this failure the evidence bottleneck: state-of-the-art systems show larger deficits in evidence extraction than in downstream reasoning, suggesting that the main limitation lies in upstream perception rather than reasoning policy. To address this problem, we propose EvA (Evidence-First Audio), a dual-path architecture that combines Whisper and CED-Base through non-compressive, time-aligned fusion. EvA first aggregates intermediate CED layers to preserve multi-scale acoustic cues, then aligns the aggregated CED features to the Whisper timeline and adds the two streams without changing sequence length. We also build EvA-Perception, a large-scale open-source training set with about 54K event-ordered captions (150 h) and about 500K QA pairs. Under a unified zero-shot protocol, EvA achieves the best open-source Perception scores on MMAU, MMAR, and MMSU, and improves over Kimi-Audio-7B on all reported metrics, with the largest gains on perception-heavy splits. These results support the evidence-first hypothesis: stronger audio understanding depends on preserving acoustic evidence before reasoning.
- Abstract(参考訳): 大規模音声言語モデル(LALM)は、推論が始まる前にタスク関連音響証拠の保存に失敗することが多いため、複雑な音響シーンで依然として苦戦している。
我々はこの失敗をエビデンスボトルネックと呼んでいる: 最先端のシステムは、下流の推論よりも証拠抽出の欠陥が大きいことを示しており、主要な制限は、推論ポリシーよりも上流の認識にあることを示唆している。
この問題を解決するために,Whisper と CED-Base を非圧縮・時間整合融合により結合したデュアルパスアーキテクチャ EvA (Evidence-First Audio) を提案する。
EvAは、まず中間のCED層を集約し、マルチスケールの音響的手がかりを保存し、次に集約されたCED特徴をWhisperタイムラインに整列し、シーケンス長を変えることなく2つのストリームを追加する。
EvA-Perceptionは、約54Kのイベント順序キャプション(150h)と約500KのQAペアを備えた、大規模なオープンソーストレーニングセットです。
統一されたゼロショットプロトコルの下では、EvAは、MMAU、MMAR、MMSUで最高のオープンソースパーセプションスコアを達成し、報告されたすべての指標でKim-Audio-7Bよりも改善され、知覚重分が最大となる。
これらの結果はエビデンスファースト仮説を支持しており、より強い音声理解は推論の前にアコースティックエビデンスを保存することに依存する。
関連論文リスト
- Multi-Source Evidence Fusion for Audio Question Answering [6.193919591996934]
TalTechのAgent Track of the Interspeech 2026 Audio Reasoning Challengeに対するソリューションについて述べる。
すべての推論ステップを明示的で信頼性の高いタグ付きエビデンスで基礎付けることで、システムは密度の高い検証可能な推論連鎖を生成する。
我々のシステムは、挑戦において第一にランク付けし、挑戦の推論品質指標の幅広いマージンで競合する全てのシステムを上回った。
論文 参考訳(メタデータ) (2026-03-18T15:12:42Z) - Step-Audio-R1 Technical Report [70.37077572409319]
本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。
私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
論文 参考訳(メタデータ) (2025-11-19T20:12:50Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。