論文の概要: AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2510.18346v1
- Date: Tue, 21 Oct 2025 06:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.040861
- Title: AV-Master: Dual-Path Comprehensive Perception Makes Better Audio-Visual Question Answering
- Title(参考訳): AV-Master:Dual-Path Comprehensive Perceptionは、より優れたオーディオ・ビジュアル質問応答を実現する
- Authors: Jiayu Zhang, Qilang Ye, Shuo Ye, Xun Lin, Zihan Song, Zitong Yu,
- Abstract要約: 本稿では,AV-Master という新しいフレームワークを提案する。
複雑なオーディオ映像シーンから重要な情報を抽出する能力を高める。
4つの大規模なベンチマーク実験により、AV-Masterは既存の手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 33.971153351649754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Question Answering (AVQA) requires models to effectively utilize both visual and auditory modalities to answer complex and diverse questions about audio-visual scenes. However, existing methods lack sufficient flexibility and dynamic adaptability in temporal sampling and modality preference awareness, making it difficult to focus on key information based on the question. This limits their reasoning capability in complex scenarios. To address these challenges, we propose a novel framework named AV-Master. It enhances the model's ability to extract key information from complex audio-visual scenes with substantial redundant content by dynamically modeling both temporal and modality dimensions. In the temporal dimension, we introduce a dynamic adaptive focus sampling mechanism that progressively focuses on audio-visual segments most relevant to the question, effectively mitigating redundancy and segment fragmentation in traditional sampling methods. In the modality dimension, we propose a preference-aware strategy that models each modality's contribution independently, enabling selective activation of critical features. Furthermore, we introduce a dual-path contrastive loss to reinforce consistency and complementarity across temporal and modality dimensions, guiding the model to learn question-specific cross-modal collaborative representations. Experiments on four large-scale benchmarks show that AV-Master significantly outperforms existing methods, especially in complex reasoning tasks.
- Abstract(参考訳): AVQA (Audio-Visual Question Answering) は、視覚と聴覚の両方のモダリティを効果的に活用して、オーディオ視覚シーンに関する複雑で多様な質問に答えるモデルを必要とする。
しかし,既存の手法では時間的サンプリングやモダリティの嗜好意識に十分な柔軟性や動的適応性が欠如しており,質問に基づいて重要な情報に集中することが困難である。
これにより複雑なシナリオにおける推論能力が制限される。
これらの課題に対処するため,AV-Masterという新しいフレームワークを提案する。
テンポラリ次元とモダリティ次元の両方を動的にモデル化することにより、複雑なオーディオ視覚シーンから重要な情報をかなり冗長な内容で抽出する能力を高める。
時間的次元において,従来のサンプリング手法における冗長性とセグメントの断片化を効果的に軽減する動的適応型焦点サンプリング機構を導入する。
モダリティの次元において、各モダリティの寄与を個別にモデル化し、重要な特徴を選択的に活性化する選好対応戦略を提案する。
さらに、時間的・モダリティ的な次元をまたいだ一貫性と相補性を高めるために、二経路の対照的な損失を導入し、問題固有の相互モーダルな協調表現を学習するためのモデルを導く。
4つの大規模なベンチマーク実験により、AV-Masterは既存の手法、特に複雑な推論タスクにおいて著しく優れていた。
関連論文リスト
- Scalable Audio-Visual Masked Autoencoders for Efficient Affective Video Facial Analysis [11.373305523732718]
Affective Video Face Analysis (AVFA) は感情認識知能システム構築の鍵となる研究分野として浮上している。
Masked Autoencoders (MAE) が勢いを増し、オーディオ・ビジュアル・コンテキストへの適応が増加している。
AVF-MAE++(AVF-MAE++)は、AVFAのスケーリング特性を効率的に調査するために設計されたオーディオビジュアルMAEモデルのファミリーである。
論文 参考訳(メタデータ) (2025-09-29T02:53:49Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering [27.763940453394902]
本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
論文 参考訳(メタデータ) (2023-12-20T07:36:38Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Target-Aware Spatio-Temporal Reasoning via Answering Questions in
Dynamics Audio-Visual Scenarios [7.938379811969159]
本稿では,音声-視覚的質問応答(AVQA)のための新たな目標認識型共同時間グラウンドネットワークを提案する。
ターゲット認識型空間接地モジュール(TSG)と単一ストリーム型音声視覚時空間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
JTGは、音声と視覚の融合と質問認識の時間的接地を、より単純な単一ストリームアーキテクチャで一つのモジュールに組み込む。
論文 参考訳(メタデータ) (2023-05-21T08:21:36Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。