Fugu-MT 論文翻訳(概要): Multi-Source Evidence Fusion for Audio Question Answering

論文の概要: Multi-Source Evidence Fusion for Audio Question Answering

arxiv url: http://arxiv.org/abs/2603.17822v1
Date: Wed, 18 Mar 2026 15:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.777719
Title: Multi-Source Evidence Fusion for Audio Question Answering
Title（参考訳）: 音声質問応答のためのマルチソースエビデンスフュージョン
Authors: Aivo Olev, Tanel Alumäe,
Abstract要約: TalTechのAgent Track of the Interspeech 2026 Audio Reasoning Challengeに対するソリューションについて述べる。すべての推論ステップを明示的で信頼性の高いタグ付きエビデンスで基礎付けることで、システムは密度の高い検証可能な推論連鎖を生成する。我々のシステムは、挑戦において第一にランク付けし、挑戦の推論品質指標の幅広いマージンで競合する全てのシステムを上回った。
参考スコア（独自算出の注目度）: 6.193919591996934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large audio language models (LALMs) can answer questions about speech, music, and environmental sounds, yet their internal reasoning is largely opaque and difficult to validate. We describe TalTech's solution to the Agent Track of the Interspeech 2026 Audio Reasoning Challenge, in which systems are evaluated on reasoning process quality, specifically the factual accuracy, logical soundness, and completeness of their reasoning chains. Our multi-source ensemble pipeline uses two LALMs that generate independent observations, while a separate text-only reasoning model cross-checks these against outputs from 25 acoustic tools organized into reliability tiers. By grounding every inference step in explicit, reliability-tagged evidence, the system produces dense, verifiable reasoning chains. Our system ranked first in the challenge, outperforming all competing systems by a wide margin in challenge's reasoning quality metric.
Abstract（参考訳）: 大規模な音声言語モデル(LALM)は、音声、音楽、環境音に関する質問に答えることができるが、内部の推論はほとんど不透明で検証が難しい。本稿では,TalTechのAgent Track of the Interspeech 2026 Audio Reasoning Challengeに対するソリューションについて述べる。我々のマルチソースアンサンブルパイプラインは、2つのLALMを使用して独立した観測結果を生成する一方、テキストのみの推論モデルは、信頼性層に整理された25の音響ツールからの出力に対してそれらを相互にチェックする。すべての推論ステップを明示的で信頼性の高いタグ付きエビデンスで基礎付けることで、システムは密度の高い検証可能な推論連鎖を生成する。我々のシステムは、挑戦において第一にランク付けし、挑戦の推論品質指標の幅広いマージンで競合する全てのシステムを上回った。

関連論文リスト

The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents [83.79481911755481]
We organized the Audio Reasoning Challenge at Interspeech 2026。この課題は、推論チェーンの事実とロジックを評価する新しいインスタンスレベルのプロトコルであるMMAR-Rubricsを導入した。シングルモデルとエージェントのトラックが特徴で、18カ国から156チームが参加している。
論文参考訳（メタデータ） (2026-02-15T16:38:09Z)
AEQ-Bench: Measuring Empathy of Omni-Modal Large Models [55.722881748046895]
AEQ-Benchは、Omni-modal large model(OLM)の2つのコア共感能力を評価するための新しいベンチマークである。 AEQ-Benchは、文脈特異性と音声のトーンに異なる2つの新しい設定を取り入れている。言語的・パラ言語的な指標の総合的な評価は、OLMが音声出力能力で訓練された場合、一般的にテキストのみの出力を持つモデルよりも優れていたことを示している。
論文参考訳（メタデータ） (2026-01-15T15:39:50Z)
Step-Audio-R1 Technical Report [70.37077572409319]
本稿では,音声領域における推論能力の解放に成功した最初の音声推論モデルであるStep-Audio-R1を紹介する。私たちのモデルは、Gemini 2.5 Proを抜いて、最先端のGemini 3 Proに匹敵するパフォーマンスを実現した、強力なオーディオ推論能力を示しています。
論文参考訳（メタデータ） (2025-11-19T20:12:50Z)
When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models [18.160420407067743]
MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
論文参考訳（メタデータ） (2025-08-21T09:58:24Z)
AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。 AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文参考訳（メタデータ） (2025-08-10T20:06:42Z)
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文参考訳（メタデータ） (2025-05-12T09:04:16Z)
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文参考訳（メタデータ） (2025-03-04T06:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。