論文の概要: Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios
- arxiv url: http://arxiv.org/abs/2305.12397v2
- Date: Fri, 8 Dec 2023 08:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 19:02:37.715516
- Title: Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios
- Title(参考訳): ダイナミックオーディオ・ビジュアルシナリオにおける質問への回答によるターゲット対応時空間推論
- Authors: Yuanyuan Jiang and Jianqin Yin
- Abstract要約: 本稿では,音声-視覚的質問応答(AVQA)のための新たな目標認識型共同時間グラウンドネットワークを提案する。
ターゲット認識型空間接地モジュール(TSG)と単一ストリーム型音声視覚時空間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
JTGは、音声と視覚の融合と質問認識の時間的接地を、より単純な単一ストリームアーキテクチャで一つのモジュールに組み込む。
- 参考スコア(独自算出の注目度): 7.938379811969159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual question answering (AVQA) is a challenging task that requires
multistep spatio-temporal reasoning over multimodal contexts. Recent works rely
on elaborate target-agnostic parsing of audio-visual scenes for spatial
grounding while mistreating audio and video as separate entities for temporal
grounding. This paper proposes a new target-aware joint spatio-temporal
grounding network for AVQA. It consists of two key components: the target-aware
spatial grounding module (TSG) and the single-stream joint audio-visual
temporal grounding module (JTG). The TSG can focus on audio-visual cues
relevant to the query subject by utilizing explicit semantics from the
question. Unlike previous two-stream temporal grounding modules that required
an additional audio-visual fusion module, JTG incorporates audio-visual fusion
and question-aware temporal grounding into one module with a simpler
single-stream architecture. The temporal synchronization between audio and
video in the JTG is facilitated by our proposed cross-modal synchrony loss
(CSL). Extensive experiments verified the effectiveness of our proposed method
over existing state-of-the-art methods.
- Abstract(参考訳): 音声-視覚的質問応答(AVQA)は多段階の時空間推論を必要とする課題である。
最近の作品では、空間的接地のための視聴覚シーンの精巧なターゲット非依存解析と、時間的接地のための独立したエンティティとしてのオーディオとビデオの扱いに依拠している。
本稿では,AVQAのための新たな目標認識型同時時空間グラウンドネットワークを提案する。
ターゲット対応空間接地モジュール (TSG) と、単一ストリームの音声-視覚的時間接地モジュール (JTG) の2つの重要なコンポーネントで構成されている。
TSGは、質問からの明示的なセマンティクスを利用することで、クエリ対象に関連する音声-視覚的手がかりにフォーカスすることができる。
オーディオ-視覚融合モジュールの追加を必要とする以前の2ストリームの時間的接地モジュールとは異なり、JTGはより単純な単一ストリームアーキテクチャで音声-視覚融合と質問-認識時間的接地をひとつのモジュールに組み込む。
JTGにおける音声とビデオの時間同期は,我々の提案したクロスモーダル同期損失(CSL)によって促進される。
既存の最先端手法に対する提案手法の有効性を実験により検証した。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-05-13T03:25:15Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Progressive Spatio-temporal Perception for Audio-Visual Question
Answering [9.727492401851478]
AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。
本稿では,鍵時間領域を段階的に識別する3つのモジュールを含むプログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-10T08:29:36Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。