論文の概要: The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents
- arxiv url: http://arxiv.org/abs/2602.14224v1
- Date: Sun, 15 Feb 2026 16:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.74744
- Title: The Interspeech 2026 Audio Reasoning Challenge: Evaluating Reasoning Process Quality for Audio Reasoning Models and Agents
- Title(参考訳): 2026年音声推論の課題:音響推論モデルとエージェントの推論プロセス品質の評価
- Authors: Ziyang Ma, Ruiyang Xu, Yinghao Ma, Chao-Han Huck Yang, Bohan Li, Jaeyeon Kim, Jin Xu, Jinyu Li, Carlos Busso, Kai Yu, Eng Siong Chng, Xie Chen,
- Abstract要約: We organized the Audio Reasoning Challenge at Interspeech 2026。
この課題は、推論チェーンの事実とロジックを評価する新しいインスタンスレベルのプロトコルであるMMAR-Rubricsを導入した。
シングルモデルとエージェントのトラックが特徴で、18カ国から156チームが参加している。
- 参考スコア(独自算出の注目度): 83.79481911755481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Audio Language Models (LALMs) excel in understanding but often lack transparent reasoning. To address this "black-box" limitation, we organized the Audio Reasoning Challenge at Interspeech 2026, the first shared task dedicated to evaluating Chain-of-Thought (CoT) quality in the audio domain. The challenge introduced MMAR-Rubrics, a novel instance-level protocol assessing the factuality and logic of reasoning chains. Featured Single Model and Agent tracks, the competition attracting 156 teams from 18 countries and regions. Results show agent systems currently lead in reasoning quality, utilizing iterative tool orchestration and cross-modal analysis. Besides, single models are rapidly advancing via reinforcement learning and sophisticated data pipeline. We details the challenge design, methodology, and a comprehensive analysis of state-of-the-art systems, providing new insights for explainable audio intelligence.
- Abstract(参考訳): 近年のLarge Audio Language Models (LALM) は理解に優れているが、しばしば透明な推論を欠いている。
この「ブラックボックス」制限に対処するため、私たちはInterspeech 2026でAudio Reasoning Challengeを組織しました。
この課題は、推論チェーンの事実とロジックを評価する新しいインスタンスレベルのプロトコルであるMMAR-Rubricsを導入した。
シングルモデルとエージェントのトラックが特徴で、18カ国から156チームが参加している。
その結果、エージェントシステムは現在、反復的なツールオーケストレーションとクロスモーダル分析を利用して、推論品質を導いている。
さらに、シングルモデルは強化学習と高度なデータパイプラインを通じて急速に進歩している。
本稿では,最先端システムの課題設計,方法論,包括的分析について詳述し,説明可能な音声インテリジェンスに新たな洞察を与える。
関連論文リスト
- Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering [13.757806950813995]
AVQA(Audio-Visual Question Answering)は、自然言語の質問に答えるために、ビデオ内の音声、視覚、テキストの情報を共同で推論する必要がある、困難なマルチモーダルタスクである。
本稿では,クエリ誘導型空間-テンポラル-周波数相互作用法を提案する。
提案手法は,既存のAudio QA, Visual QA, Video QA, AVQAアプローチに対して, 大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2026-01-27T17:24:32Z) - Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering [20.893202481783444]
提案するOmni-Tは,Selective Chain-of-Thoughtを用いた誤り認識学習フレームワークである。
我々は,Omni-TがMMAUminiで73.80%,MMARで64.30%を達成していることを示す。
論文 参考訳(メタデータ) (2025-09-14T06:54:12Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。