論文の概要: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2207.12647v1
- Date: Tue, 26 Jul 2022 04:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:19:57.973003
- Title: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering
- Title(参考訳): イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論
- Authors: Yang Liu, Guanbin Li, Liang Lin
- Abstract要約: 我々は,Cross-Modal Causal RelatIonal Reasoning (CMCIR) という新しいイベントレベルの視覚的質問応答フレームワークを提案する。
視覚的・言語的モダリティの因果構造を明らかにするために,新しい視覚言語推論モジュール(CVLR)を提案する。
- 参考スコア(独自算出の注目度): 134.91774666260338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual question answering methods tend to capture the spurious
correlations from visual and linguistic modalities, and fail to discover the
true casual mechanism that facilitates reasoning truthfully based on the
dominant visual evidence and the correct question intention. Additionally, the
existing methods usually ignore the complex event-level understanding in
multi-modal settings that requires a strong cognitive capability of causal
inference to jointly model cross-modal event temporality, causality, and
dynamics. In this work, we focus on event-level visual question answering from
a new perspective, i.e., cross-modal causal relational reasoning, by
introducing causal intervention methods to mitigate the spurious correlations
and discover the true causal structures for the integration of visual and
linguistic modalities. Specifically, we propose a novel event-level visual
question answering framework named Cross-Modal Causal RelatIonal Reasoning
(CMCIR), to achieve robust casuality-aware visual-linguistic question
answering. To uncover the causal structures for visual and linguistic
modalities, the novel Causality-aware Visual-Linguistic Reasoning (CVLR) module
is proposed to collaboratively disentangle the visual and linguistic spurious
correlations via elaborately designed front-door and back-door causal
intervention modules. To discover the fine-grained interactions between
linguistic semantics and spatial-temporal representations, we build a novel
Spatial-Temporal Transformer (STT) that builds the multi-modal co-occurrence
interactions between visual and linguistic content. Extensive experiments on
large-scale event-level urban dataset SUTD-TrafficQA and three benchmark
real-world datasets TGIF-QA, MSVD-QA, and MSRVTT-QA demonstrate the
effectiveness of our CMCIR for discovering visual-linguistic causal structures.
- Abstract(参考訳): 既存の視覚的質問応答法は、視覚的・言語的モダリティから突発的な相関関係を捉え、支配的な視覚的証拠と正しい質問意図に基づいて真に推論を促進する真のカジュアルなメカニズムを発見できない傾向にある。
加えて、既存の手法では複雑な事象レベルの理解を無視することが多いが、これは因果推論の強力な認知能力を必要とし、相互モーダル事象の時間性、因果性、ダイナミクスを共同でモデル化する。
本研究では,新しい視点,すなわちクロスモーダル因果関係推論(cross-modal causal relational reasoning)に着目し,スプリアス相関を緩和し,視覚と言語統合のための真の因果構造を発見するための因果的介入手法を導入する。
具体的には,CCRIR(Cross-Modal Causal RelatIonal Reasoning)と呼ばれるイベントレベルの視覚的質問応答フレームワークを提案する。
視覚的・言語的モダリティの因果構造を明らかにするため,視覚的・言語的因果関係を複雑に設計し,視覚的・言語的因果関係を包含するCVLR(Causality-aware Visual-Linguistic Reasoning)モジュールが提案されている。
言語意味論と時空間表現のきめ細かい相互作用を発見するために,視覚コンテンツと言語コンテンツ間のマルチモーダルな共起相互作用を構築する新しい空間時間変換器(STT)を構築した。
大規模イベントレベル都市データセットSUTD-TrafficQAと3つのベンチマーク実世界のデータセットTGIF-QA、MSVD-QA、MSRVTT-QAの大規模な実験により、視覚言語学的因果構造を発見するためのCMCIRの有効性が実証された。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。
我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。
COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-12T08:13:52Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。
視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。
言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文 参考訳(メタデータ) (2023-04-17T08:56:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。