論文の概要: Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios
- arxiv url: http://arxiv.org/abs/2305.12397v1
- Date: Sun, 21 May 2023 08:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:53:41.807141
- Title: Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios
- Title(参考訳): ダイナミックオーディオ・ビジュアルシナリオにおける質問への回答によるターゲット対応時空間推論
- Authors: Yuanyuan Jiang and Jianqin Yin
- Abstract要約: 本稿では,これらの課題に対処するためのAVQAのための統合S-Temporal Grounding Networkを提案する。
提案手法は,ターゲット認識型空間的接地モジュール,トリモーダル整合性損失,および関節型視覚的時間的接地モジュールの2つの主成分を有する。
MUSIC-AVQAデータセットの実験結果は,既存の最先端手法よりも提案手法の有効性と優位性を示した。
- 参考スコア(独自算出の注目度): 4.702033158120526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual question answering (AVQA) is a challenging task that requires
multistep spatio-temporal reasoning over multimodal contexts. To achieve scene
understanding ability similar to humans, the AVQA task presents specific
challenges, including effectively fusing audio and visual information and
capturing question-relevant audio-visual features while maintaining temporal
synchronization. This paper proposes a Target-aware Joint Spatio-Temporal
Grounding Network for AVQA to address these challenges. The proposed approach
has two main components: the Target-aware Spatial Grounding module, the
Tri-modal consistency loss and corresponding Joint audio-visual temporal
grounding module. The Target-aware module enables the model to focus on
audio-visual cues relevant to the inquiry subject by exploiting the explicit
semantics of text modality. The Tri-modal consistency loss facilitates the
interaction between audio and video during question-aware temporal grounding
and incorporates fusion within a simpler single-stream architecture.
Experimental results on the MUSIC-AVQA dataset demonstrate the effectiveness
and superiority of the proposed method over existing state-of-the-art methods.
Our code will be availiable soon.
- Abstract(参考訳): 音声-視覚的質問応答(AVQA)は多段階の時空間推論を必要とする課題である。
人間と似たシーン理解能力を達成するために、AVQAタスクは、音声と視覚情報を効果的に融合させ、時間同期を維持しながら、質問関連オーディオ視覚特徴をキャプチャするなど、特定の課題を提示する。
本稿では,これらの課題に対処するためのAVQAのための統合時空間グラウンドネットワークを提案する。
提案手法は,ターゲット認識型空間接地モジュール,トリモーダル整合性損失,および対応音声視覚時間接地モジュールの2つの主成分を有する。
ターゲット・アウェア・モジュールは,テキストモダリティの明示的な意味論を活用し,問合せ対象の視聴覚的手がかりに焦点をあてることができる。
トリモーダル整合性喪失は、質問認識時の音声と映像の相互作用を促進し、単純な単一ストリームアーキテクチャに融合を組み込む。
MUSIC-AVQAデータセットの実験結果は,既存の最先端手法よりも提案手法の有効性と優位性を示した。
私たちのコードはすぐに有効になるでしょう。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-05-13T03:25:15Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Progressive Spatio-temporal Perception for Audio-Visual Question
Answering [9.727492401851478]
AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。
本稿では,鍵時間領域を段階的に識別する3つのモジュールを含むプログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-10T08:29:36Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。