論文の概要: Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge
- arxiv url: http://arxiv.org/abs/2505.07365v1
- Date: Mon, 12 May 2025 09:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.323428
- Title: Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge
- Title(参考訳): DCASE 2025 チャレンジにおける音響コンテンツ推論のためのマルチドメイン音声質問応答
- Authors: Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro,
- Abstract要約: 本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
- 参考スコア(独自算出の注目度): 102.84031769492708
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Task 5 of the DCASE 2025 Challenge: an Audio Question Answering (AQA) benchmark spanning multiple domains of sound understanding. This task defines three QA subsets (Bioacoustics, Temporal Soundscapes, and Complex QA) to test audio-language models on interactive question-answering over diverse acoustic scenes. We describe the dataset composition (from marine mammal calls to soundscapes and complex real-world clips), the evaluation protocol (top-1 accuracy with answer-shuffling robustness), and baseline systems (Qwen2-Audio-7B, AudioFlamingo 2, Gemini-2-Flash). Preliminary results on the development set are compared, showing strong variation across models and subsets. This challenge aims to advance the audio understanding and reasoning capabilities of audio-language models toward human-level acuity, which are crucial for enabling AI agents to perceive and interact about the world effectively.
- Abstract(参考訳): 音声理解の複数の領域にまたがるAQA(Audio Question Answering)ベンチマーク(DCASE 2025 Challenge: Audio Question Answering)のタスク5を提示する。
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセット(ビオアコースティックス,テンポラルサウンドスケープ,コンプレックスQA)を定義する。
本報告では, 海産哺乳動物から, サウンドスケープや複雑な実世界のクリップまで, 評価プロトコル(応答シャッフルロバスト性の高いトップ1精度) およびベースラインシステム(Qwen2-Audio-7B, AudioFlamingo 2, Gemini-2-Flash)について述べる。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、AIエージェントが効果的に世界に対する認識と対話を可能にするために不可欠である、人間レベルの明度に向けて、オーディオモデルの音声理解と推論能力を向上させることを目的としている。
関連論文リスト
- Audiopedia: Audio QA with Knowledge [0.0]
本稿では,Audiopediaという,Audio Question Answering with Knowledgeという新しいタスクを紹介する。
従来のAQA(Audio Question Answering)ベンチマークとは異なり、Audiopediaは知識集約的な質問をターゲットにしている。
我々は,これらのサブタスク上で大規模音声言語モデル (LALM) をベンチマークし,準最適性能を観察する。
LALMに適応可能な汎用フレームワークを提案し,知識推論機能を備える。
論文 参考訳(メタデータ) (2024-12-29T23:48:35Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。