論文の概要: Multi-Scale Attention for Audio Question Answering
- arxiv url: http://arxiv.org/abs/2305.17993v1
- Date: Mon, 29 May 2023 10:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:28:55.761059
- Title: Multi-Scale Attention for Audio Question Answering
- Title(参考訳): 音声質問応答のためのマルチスケール注意
- Authors: Guangyao Li, Yixin Xu, Di Hu
- Abstract要約: AQA (Audio Question answering) は、シーン理解を探索するために広く使用されるプロキシタスクである。
既存の手法は主に視覚的質問応答タスクの構造を単純なパターンで音声に拡張する。
本稿では,非同期ハイブリッドアテンションモジュールとマルチスケールウィンドウアテンションモジュールからなるマルチスケールウィンドウアテンションフュージョンモデルを提案する。
- 参考スコア(独自算出の注目度): 9.254814692650523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio question answering (AQA), acting as a widely used proxy task to explore
scene understanding, has got more attention. The AQA is challenging for it
requires comprehensive temporal reasoning from different scales' events of an
audio scene. However, existing methods mostly extend the structures of visual
question answering task to audio ones in a simple pattern but may not perform
well when perceiving a fine-grained audio scene. To this end, we present a
Multi-scale Window Attention Fusion Model (MWAFM) consisting of an asynchronous
hybrid attention module and a multi-scale window attention module. The former
is designed to aggregate unimodal and cross-modal temporal contexts, while the
latter captures sound events of varying lengths and their temporal dependencies
for a more comprehensive understanding. Extensive experiments are conducted to
demonstrate that the proposed MWAFM can effectively explore temporal
information to facilitate AQA in the fine-grained scene.Code:
https://github.com/GeWu-Lab/MWAFM
- Abstract(参考訳): AQA(Audio Question answering)は、シーン理解の探索に広く使用されるプロキシタスクであり、注目されている。
AQAは、オーディオシーンの異なるスケールのイベントからの包括的な時間的推論を必要とするため、難しい。
しかし、既存の手法では、視覚質問応答タスクの構造を単純なパターンでオーディオに拡張するが、細粒度の音声シーンを知覚する場合はうまく機能しない。
この目的のために、非同期ハイブリッドアテンションモジュールとマルチスケールウィンドウアテンションモジュールからなるマルチスケールウィンドウアテンションフュージョンモデル(MWAFM)を提案する。
前者は単調な時間的文脈と横断的な時間的文脈を集約するように設計され、後者はより包括的な理解のために様々な長さと時間的依存関係の音イベントをキャプチャする。
提案したMWAFMが時空間情報を効果的に探索し,微粒化シーンにおけるAQAを促進することの実証実験を行った。コード:https://github.com/GeWu-Lab/MWAFM
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - CAT: Enhancing Multimodal Large Language Model to Answer Questions in
Dynamic Audio-Visual Scenarios [69.94398424864595]
本稿では,リッチで複雑なダイナミック・オーディオ・ビジュアル・コンポーネントからなるシナリオにおいて,質問に答えることの課題に焦点をあてる。
本稿では,MLLM(Multimodal Large Language Models)を3つの方法で拡張するCATを紹介する。
CATは混合マルチモーダルデータセットでトレーニングされており、オーディオと視覚のシナリオで直接適用することができる。
論文 参考訳(メタデータ) (2024-03-07T16:31:02Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual
Event Localization and Video Parsing [7.977954561853929]
本稿では,マルチモーダルピラミッド注意ネットワーク(MM-Pyramid)を提案する。
また,適応型セマンティックフュージョンモジュールを設計し,ユニットレベルのアテンションブロックと選択的フュージョンブロックを活用して,ピラミッド機能を対話的に統合する。
論文 参考訳(メタデータ) (2021-11-24T09:47:26Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。