論文の概要: Visual Causal Scene Refinement for Video Question Answering
- arxiv url: http://arxiv.org/abs/2305.04224v2
- Date: Tue, 1 Aug 2023 02:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:36:36.900410
- Title: Visual Causal Scene Refinement for Video Question Answering
- Title(参考訳): ビデオ質問応答のための視覚的因果的シーンリファインメント
- Authors: Yushen Wei, Yang Liu, Hong Yan, Guanbin Li, Liang Lin
- Abstract要約: 本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
- 参考スコア(独自算出の注目度): 117.08431221482638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for video question answering (VideoQA) often suffer from
spurious correlations between different modalities, leading to a failure in
identifying the dominant visual evidence and the intended question. Moreover,
these methods function as black boxes, making it difficult to interpret the
visual scene during the QA process. In this paper, to discover critical video
segments and frames that serve as the visual causal scene for generating
reliable answers, we present a causal analysis of VideoQA and propose a
framework for cross-modal causal relational reasoning, named Visual Causal
Scene Refinement (VCSR). Particularly, a set of causal front-door intervention
operations is introduced to explicitly find the visual causal scenes at both
segment and frame levels. Our VCSR involves two essential modules: i) the
Question-Guided Refiner (QGR) module, which refines consecutive video frames
guided by the question semantics to obtain more representative segment features
for causal front-door intervention; ii) the Causal Scene Separator (CSS)
module, which discovers a collection of visual causal and non-causal scenes
based on the visual-linguistic causal relevance and estimates the causal effect
of the scene-separating intervention in a contrastive learning manner.
Extensive experiments on the NExT-QA, Causal-VidQA, and MSRVTT-QA datasets
demonstrate the superiority of our VCSR in discovering visual causal scene and
achieving robust video question answering. The code is available at
https://github.com/YangLiu9208/VCSR.
- Abstract(参考訳): 既存のビデオ質問応答法 (VideoQA) は、様々なモダリティ間の素早い相関に悩まされ、支配的な視覚的エビデンスと意図する質問の特定に失敗する。
さらに、これらの手法はブラックボックスとして機能し、QAプロセス中の視覚的シーンの解釈が困難になる。
本稿では,信頼性の高い回答を生成するための視覚的因果シーンとして,重要な映像セグメントやフレームを探索するために,videoqaの因果分析を行い,視覚因果シーンリファインメント(vcsr)という,クロスモーダル因果関係推論の枠組みを提案する。
特に、視覚的因果シーンをセグメントレベルとフレームレベルの両方で明確に見つけるために、一組の因果介入操作を導入する。
vcsrには2つの必須モジュールがあります
i)QGRモジュールは、質問セマンティクスによって案内された連続的なビデオフレームを洗練し、因果的前庭介入のためのより代表的な部分的特徴を得る。
二 視覚的言語的因果関係に基づいて視覚的因果関係及び非因果関係の集まりを発見し、対比学習方法でシーン分離介入の因果効果を推定する因果関係分離子(css)モジュール。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの大規模な実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を示している。
コードはhttps://github.com/yangliu9208/vcsrで入手できる。
関連論文リスト
- LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Semantic-aware Dynamic Retrospective-Prospective Reasoning for
Event-level Video Question Answering [14.659023742381777]
Event-Level Video Question Answering (EVQA)は、最適な回答を提供するために、ビデオイベント間の複雑な推論を必要とする。
本稿では,映像に基づく質問応答のための意味認識動的ふりかえり推論手法を提案する。
提案手法は,従来の最先端モデルと比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-14T03:57:11Z) - VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。
視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。
言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文 参考訳(メタデータ) (2023-04-17T08:56:16Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。