論文の概要: Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2601.19821v1
- Date: Tue, 27 Jan 2026 17:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.416753
- Title: Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering
- Title(参考訳): 楽曲音声-視覚的質問応答のための問合せガイド付き空間-時間-周波数相互作用
- Authors: Kun Li, Michael Ying Yang, Sami Sebastian Brandt,
- Abstract要約: AVQA(Audio-Visual Question Answering)は、自然言語の質問に答えるために、ビデオ内の音声、視覚、テキストの情報を共同で推論する必要がある、困難なマルチモーダルタスクである。
本稿では,クエリ誘導型空間-テンポラル-周波数相互作用法を提案する。
提案手法は,既存のAudio QA, Visual QA, Video QA, AVQAアプローチに対して, 大幅な性能向上を実現する。
- 参考スコア(独自算出の注目度): 13.757806950813995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio--Visual Question Answering (AVQA) is a challenging multimodal task that requires jointly reasoning over audio, visual, and textual information in a given video to answer natural language questions. Inspired by recent advances in Video QA, many existing AVQA approaches primarily focus on visual information processing, leveraging pre-trained models to extract object-level and motion-level representations. However, in those methods, the audio input is primarily treated as complementary to video analysis, and the textual question information contributes minimally to audio--visual understanding, as it is typically integrated only in the final stages of reasoning. To address these limitations, we propose a novel Query-guided Spatial--Temporal--Frequency (QSTar) interaction method, which effectively incorporates question-guided clues and exploits the distinctive frequency-domain characteristics of audio signals, alongside spatial and temporal perception, to enhance audio--visual understanding. Furthermore, we introduce a Query Context Reasoning (QCR) block inspired by prompting, which guides the model to focus more precisely on semantically relevant audio and visual features. Extensive experiments conducted on several AVQA benchmarks demonstrate the effectiveness of our proposed method, achieving significant performance improvements over existing Audio QA, Visual QA, Video QA, and AVQA approaches. The code and pretrained models will be released after publication.
- Abstract(参考訳): AVQA(Audio-Visual Question Answering)は、自然言語の質問に答えるために、ビデオ内の音声、視覚、テキストの情報を共同で推論する必要がある、困難なマルチモーダルタスクである。
ビデオQAの最近の進歩に触発されて、既存のAVQAアプローチの多くは、主に視覚情報処理に焦点を当て、事前訓練されたモデルを利用して、オブジェクトレベルとモーションレベルの表現を抽出している。
しかし,これらの手法では,音声入力は主に映像解析の補完として扱われ,テキスト質問情報は音声・視覚的理解に最小限に寄与する。
これらの制約に対処するために,質問誘導の手がかりを効果的に取り入れ,空間的・時間的知覚とともに音声信号の周波数領域特性を利用したクエリ誘導空間-時間-周波数(QSTar)相互作用法を提案する。
さらに、アクセプションにインスパイアされたクエリコンテキスト推論(QCR)ブロックを導入し、セマンティックなオーディオおよび視覚機能により正確にフォーカスするようモデルに誘導する。
いくつかのAVQAベンチマークにおいて,提案手法の有効性を実証し,既存のAudio QA, Visual QA, Video QA, AVQAアプローチに対して大幅な性能向上を実現した。
コードと事前訓練されたモデルは、公開後にリリースされる。
関連論文リスト
- Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios [7.938379811969159]
本稿では,音声-視覚的質問応答(AVQA)のための新たな目標認識型共同時間グラウンドネットワークを提案する。
ターゲット認識型空間接地モジュール(TSG)と単一ストリーム型音声視覚時空間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
JTGは、音声と視覚の融合と質問認識の時間的接地を、より単純な単一ストリームアーキテクチャで一つのモジュールに組み込む。
論文 参考訳(メタデータ) (2023-05-21T08:21:36Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。