論文の概要: Progressive Spatio-temporal Perception for Audio-Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2308.05421v1
- Date: Thu, 10 Aug 2023 08:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 13:08:24.227537
- Title: Progressive Spatio-temporal Perception for Audio-Visual Question
Answering
- Title(参考訳): 音声-視覚的質問応答に対する時空間的プログレッシブ知覚
- Authors: Guangyao Li, Wenxuan Hou, Di Hu
- Abstract要約: AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。
本稿では,鍵時間領域を段階的に識別する3つのモジュールを含むプログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。
- 参考スコア(独自算出の注目度): 9.727492401851478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Question Answering (AVQA) task aims to answer questions about
different visual objects, sounds, and their associations in videos. Such
naturally multi-modal videos are composed of rich and complex dynamic
audio-visual components, where most of which could be unrelated to the given
questions, or even play as interference in answering the content of interest.
Oppositely, only focusing on the question-aware audio-visual content could get
rid of influence, meanwhile enabling the model to answer more efficiently. In
this paper, we propose a Progressive Spatio-Temporal Perception Network
(PSTP-Net), which contains three modules that progressively identify key
spatio-temporal regions w.r.t. questions. Specifically, a temporal segment
selection module is first introduced to select the most relevant audio-visual
segments related to the given question. Then, a spatial region selection module
is utilized to choose the most relevant regions associated with the question
from the selected temporal segments. To further refine the selection of
features, an audio-guided visual attention module is employed to perceive the
association between auido and selected spatial regions. Finally, the
spatio-temporal features from these modules are integrated for answering the
question. Extensive experimental results on the public MUSIC-AVQA and AVQA
datasets provide compelling evidence of the effectiveness and efficiency of
PSTP-Net. Code is available at:
\href{https://github.com/GeWu-Lab/PSTP-Net}{https://github.com/GeWu-Lab/PSTP-Net}
- Abstract(参考訳): AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。
このような自然なマルチモーダルビデオは、リッチで複雑な動的オーディオ視覚コンポーネントで構成されており、ほとんどのビデオは、与えられた質問とは無関係になり得る。
反対に、質問を意識した音声ビジュアルコンテンツのみに注目すれば影響は排除され、モデルがより効率的に答えられるようになる。
本稿では,鍵時空間を段階的に識別する3つのモジュールを含む,プログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。
具体的には、最初に時間セグメント選択モジュールを導入し、与えられた質問に関連する最も関連性の高い音声視覚セグメントを選択する。
次に、空間領域選択モジュールを用いて、選択された時間セグメントから質問に関連する最も関連する領域を選択する。
特徴の選択をさらに洗練するために、オーディオ誘導視覚注意モジュールを用いて、オードと選択された空間領域の関係を知覚する。
最後に、これらのモジュールの時空間的特徴は質問に答えるために統合される。
一般向けMUSIC-AVQAデータセットとAVQAデータセットの大規模な実験結果から,PSTP-Netの有効性と有効性が確認された。
コードは以下の通り。 \href{https://github.com/GeWu-Lab/PSTP-Net}{https://github.com/GeWu-Lab/PSTP-Net}
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-05-13T03:25:15Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - CAT: Enhancing Multimodal Large Language Model to Answer Questions in
Dynamic Audio-Visual Scenarios [69.94398424864595]
本稿では,リッチで複雑なダイナミック・オーディオ・ビジュアル・コンポーネントからなるシナリオにおいて,質問に答えることの課題に焦点をあてる。
本稿では,MLLM(Multimodal Large Language Models)を3つの方法で拡張するCATを紹介する。
CATは混合マルチモーダルデータセットでトレーニングされており、オーディオと視覚のシナリオで直接適用することができる。
論文 参考訳(メタデータ) (2024-03-07T16:31:02Z) - Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios [7.938379811969159]
本稿では,音声-視覚的質問応答(AVQA)のための新たな目標認識型共同時間グラウンドネットワークを提案する。
ターゲット認識型空間接地モジュール(TSG)と単一ストリーム型音声視覚時空間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
JTGは、音声と視覚の融合と質問認識の時間的接地を、より単純な単一ストリームアーキテクチャで一つのモジュールに組み込む。
論文 参考訳(メタデータ) (2023-05-21T08:21:36Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Relation-aware Video Reading Comprehension for Temporal Language
Grounding [67.5613853693704]
ビデオ中の時間的言語基盤は、与えられたクエリ文に関連する時間的スパンをローカライズすることを目的としている。
本稿では,映像読解の時間的基盤を定式化し,それに対応する関係認識ネットワーク(RaNet)を提案する。
論文 参考訳(メタデータ) (2021-10-12T03:10:21Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。