論文の概要: Patch-level Sounding Object Tracking for Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2412.10749v1
- Date: Sat, 14 Dec 2024 08:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:27.420100
- Title: Patch-level Sounding Object Tracking for Audio-Visual Question Answering
- Title(参考訳): 聴覚的質問応答のためのパッチレベルの物体追跡
- Authors: Zhangbin Li, Jinxing Zhou, Jing Zhang, Shengeng Tang, Kun Li, Dan Guo,
- Abstract要約: Patch-level Sounding Object Tracking (PSOT) 法を提案する。
視覚的な動き情報を利用して、音のある物体や疑問に関連しやすい大きな動きを持つ視覚的パッチを識別する。
提案手法の有効性を実証し,近年の大規模事前学習手法と比較しても競争性能が向上した。
- 参考スコア(独自算出の注目度): 21.32101249139122
- License:
- Abstract: Answering questions related to audio-visual scenes, i.e., the AVQA task, is becoming increasingly popular. A critical challenge is accurately identifying and tracking sounding objects related to the question along the timeline. In this paper, we present a new Patch-level Sounding Object Tracking (PSOT) method. It begins with a Motion-driven Key Patch Tracking (M-KPT) module, which relies on visual motion information to identify salient visual patches with significant movements that are more likely to relate to sounding objects and questions. We measure the patch-wise motion intensity map between neighboring video frames and utilize it to construct and guide a motion-driven graph network. Meanwhile, we design a Sound-driven KPT (S-KPT) module to explicitly track sounding patches. This module also involves a graph network, with the adjacency matrix regularized by the audio-visual correspondence map. The M-KPT and S-KPT modules are performed in parallel for each temporal segment, allowing balanced tracking of salient and sounding objects. Based on the tracked patches, we further propose a Question-driven KPT (Q-KPT) module to retain patches highly relevant to the question, ensuring the model focuses on the most informative clues. The audio-visual-question features are updated during the processing of these modules, which are then aggregated for final answer prediction. Extensive experiments on standard datasets demonstrate the effectiveness of our method, achieving competitive performance even compared to recent large-scale pretraining-based approaches.
- Abstract(参考訳): AVQAタスクというオーディオビジュアルシーンに関する質問に対する回答は、ますます人気が高まっている。
重要な課題は、タイムラインに沿った質問に関連する音声オブジェクトを正確に識別し、追跡することである。
本稿では,新しいPatch-level Sounding Object Tracking(PSOT)法を提案する。
これはモーション駆動のキーパッチ追跡(M-KPT)モジュールから始まり、視覚的な動き情報に依存して、音のある物体や質問に関連しそうな大きな動きを持つ視覚的パッチを識別する。
我々は、隣接するビデオフレーム間のパッチワイド・モーション・インテンシティ・マップを計測し、それを利用して動き駆動グラフネットワークを構築し、ガイドする。
一方,音質パッチを明示的に追跡するサウンド駆動型KPT (S-KPT) モジュールを設計する。
このモジュールはグラフネットワークも含み、隣接行列は音声-視覚対応マップによって正規化される。
M-KPTおよびS-KPTモジュールは、各時間セグメントに対して並列に実行され、塩分と音量のバランスの取れた追跡を可能にする。
追跡されたパッチに基づいて,質問駆動型KPT (Q-KPT) モジュールを提案する。
オーディオ・ビジュアル・クエスト機能は、これらのモジュールの処理中に更新され、最終的な回答予測のために集約される。
提案手法の有効性を実証し,近年の大規模事前学習手法と比較して競争性能が向上した。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering [27.763940453394902]
本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
論文 参考訳(メタデータ) (2023-12-20T07:36:38Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Progressive Spatio-temporal Perception for Audio-Visual Question
Answering [9.727492401851478]
AVQA(Audio-Visual Question Answering)タスクは、異なる視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としている。
本稿では,鍵時間領域を段階的に識別する3つのモジュールを含むプログレッシブ・時空間知覚ネットワーク(PSTP-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-10T08:29:36Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。