論文の概要: Cross-modal Causal Relation Alignment for Video Question Grounding
- arxiv url: http://arxiv.org/abs/2503.07635v1
- Date: Wed, 05 Mar 2025 01:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:26.006518
- Title: Cross-modal Causal Relation Alignment for Video Question Grounding
- Title(参考訳): ビデオ質問接地のためのモーダル間因果関係アライメント
- Authors: Weixing Chen, Yang Liu, Binglin Chen, Jiandong Su, Yongsen Zheng, Liang Lin,
- Abstract要約: ビデオQG(Video question grounding)では、質問に答え、関連するビデオセグメントを同時に推論して回答をサポートする必要がある。
既存のビデオQG手法は、通常、急激な相互モーダルな相関に悩まされ、意図された問題と一致した支配的な視覚シーンを特定することに失敗する。
本稿では,CRA(Cross-modal Causal Relation Alignment)と呼ばれる新しいビデオQGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.97933293141372
- License:
- Abstract: Video question grounding (VideoQG) requires models to answer the questions and simultaneously infer the relevant video segments to support the answers. However, existing VideoQG methods usually suffer from spurious cross-modal correlations, leading to a failure to identify the dominant visual scenes that align with the intended question. Moreover, vision-language models exhibit unfaithful generalization performance and lack robustness on challenging downstream tasks such as VideoQG. In this work, we propose a novel VideoQG framework named Cross-modal Causal Relation Alignment (CRA), to eliminate spurious correlations and improve the causal consistency between question-answering and video temporal grounding. Our CRA involves three essential components: i) Gaussian Smoothing Grounding (GSG) module for estimating the time interval via cross-modal attention, which is de-noised by an adaptive Gaussian filter, ii) Cross-Modal Alignment (CMA) enhances the performance of weakly supervised VideoQG by leveraging bidirectional contrastive learning between estimated video segments and QA features, iii) Explicit Causal Intervention (ECI) module for multimodal deconfounding, which involves front-door intervention for vision and back-door intervention for language. Extensive experiments on two VideoQG datasets demonstrate the superiority of our CRA in discovering visually grounded content and achieving robust question reasoning. Codes are available at https://github.com/WissingChen/CRA-GQA.
- Abstract(参考訳): ビデオQG(Video question grounding)では、質問に答え、関連するビデオセグメントを同時に推論して回答をサポートする必要がある。
しかし、既存のビデオQG法は、通常、急激な相互モーダルな相関に悩まされ、意図された問題と一致した支配的な視覚シーンの特定に失敗する。
さらに、視覚言語モデルは不誠実な一般化性能を示し、ビデオQGのような下流の課題に対して頑健さを欠いている。
本研究では,CRA(Cross-modal Causal Relation Alignment)と呼ばれる新しいビデオQGフレームワークを提案する。
私たちのCRAには3つの重要な要素があります。
一 ガウス的平滑化グラウンドリング(GSG)モジュールであって、アダプティブガウスフィルタによりデノーズされる横断的注意により時間間隔を推定すること。
二 クロスモーダルアライメント(CMA)は、推定ビデオセグメントとQA特徴との間の双方向のコントラスト学習を活用することにより、弱教師付きビデオQGの性能を高める。
三 マルチモーダルデコンファンディングのための明示的因果介入(ECI)モジュールであって、視覚に対する正面的介入及び言語に対する後方的介入を含むもの。
2つのビデオQGデータセットに対する大規模な実験は、視覚的に基盤付けられたコンテンツを発見し、堅牢な質問推論を実現する上で、私たちのCRAの優位性を示している。
コードはhttps://github.com/WissingChen/CRA-GQA.comで公開されている。
関連論文リスト
- Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering [75.01757991135567]
本稿では,動画をエンドツーエンドで処理するDual-Visual Graph Reasoning Unit (DualVGR)を提案する。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-07-10T06:08:15Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。