論文の概要: Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
- arxiv url: http://arxiv.org/abs/2407.20693v1
- Date: Tue, 30 Jul 2024 09:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:39:47.874206
- Title: Boosting Audio Visual Question Answering via Key Semantic-Aware Cues
- Title(参考訳): キー・セマンティック・アウェア・キューによる音声視覚質問応答の強化
- Authors: Guangyao Li, Henghui Du, Di Hu,
- Abstract要約: AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
- 参考スコア(独自算出の注目度): 8.526720031181027
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Audio Visual Question Answering (AVQA) task aims to answer questions related to various visual objects, sounds, and their interactions in videos. Such naturally multimodal videos contain rich and complex dynamic audio-visual components, with only a portion of them closely related to the given questions. Hence, effectively perceiving audio-visual cues relevant to the given questions is crucial for correctly answering them. In this paper, we propose a Temporal-Spatial Perception Model (TSPM), which aims to empower the model to perceive key visual and auditory cues related to the questions. Specifically, considering the challenge of aligning non-declarative questions and visual representations into the same semantic space using visual-language pretrained models, we construct declarative sentence prompts derived from the question template, to assist the temporal perception module in better identifying critical segments relevant to the questions. Subsequently, a spatial perception module is designed to merge visual tokens from selected segments to highlight key latent targets, followed by cross-modal interaction with audio to perceive potential sound-aware areas. Finally, the significant temporal-spatial cues from these modules are integrated to answer the question. Extensive experiments on multiple AVQA benchmarks demonstrate that our framework excels not only in understanding audio-visual scenes but also in answering complex questions effectively. Code is available at https://github.com/GeWu-Lab/TSPM.
- Abstract(参考訳): AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
このような自然なマルチモーダルビデオは、リッチで複雑な動的オーディオ視覚成分を含み、その一部だけが与えられた質問に密接に関連している。
したがって、与えられた質問に対する音声・視覚的手がかりを効果的に知覚することは、それらに正しく答えるのに不可欠である。
本稿では,質問に対する重要な視覚的・聴覚的手がかりを知覚することを目的とした,時間空間知覚モデル(TSPM)を提案する。
具体的には、非宣言的質問や視覚的表現を視覚言語事前学習モデルを用いて同じ意味空間に整合させるという課題を考慮して、質問テンプレートから派生した宣言的文プロンプトを構築し、時間的知覚モジュールによる質問に関連する重要な部分の同定を支援する。
その後、空間知覚モジュールは、選択されたセグメントから視覚トークンをマージして、重要な潜在目標を強調し、その後、音声と相互に相互作用して潜在的な音認識領域を知覚するように設計されている。
最後に、これらのモジュールからの重要な時間空間的手がかりは、質問に答えるために統合される。
複数のAVQAベンチマークに対する大規模な実験により、我々のフレームワークは、音声・視覚シーンの理解だけでなく、複雑な質問に答える上でも優れていることが示された。
コードはhttps://github.com/GeWu-Lab/TSPMで入手できる。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering [27.763940453394902]
本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
論文 参考訳(メタデータ) (2023-12-20T07:36:38Z) - Progressive Spatio-temporal Perception for Audio-Visual Question
Answering [9.727492401851478]
AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。
本稿では,鍵時間領域を段階的に識別する3つのモジュールを含むプログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-10T08:29:36Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。