論文の概要: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2207.12647v5
- Date: Tue, 18 Apr 2023 03:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 18:41:09.695719
- Title: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering
- Title(参考訳): イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論
- Authors: Yang Liu, Guanbin Li, Liang Lin
- Abstract要約: 我々は,Cross-Modal Causal RelatIonal Reasoning (CMCIR) という新しいイベントレベルの視覚的質問応答フレームワークを提案する。
クロスモーダル因果構造を発見するために,視覚言語推論(CVLR)モジュールを提案する。
言語意味論と時空間表現のきめ細かい相互作用をモデル化するために、時空間変換器(STT)を構築する。
因果認識の視覚的特徴と言語的特徴を適応的に融合させるために,視覚言語的特徴融合(VLFF)モジュールを導入する。
- 参考スコア(独自算出の注目度): 134.91774666260338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual question answering methods tend to capture the cross-modal
spurious correlations and fail to discover the true causal mechanism that
facilitates reasoning truthfully based on the dominant visual evidence and the
question intention. Additionally, the existing methods usually ignore the
cross-modal event-level understanding that requires to jointly model event
temporality, causality, and dynamics. In this work, we focus on event-level
visual question answering from a new perspective, i.e., cross-modal causal
relational reasoning, by introducing causal intervention methods to discover
the true causal structures for visual and linguistic modalities. Specifically,
we propose a novel event-level visual question answering framework named
Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust
causality-aware visual-linguistic question answering. To discover cross-modal
causal structures, the Causality-aware Visual-Linguistic Reasoning (CVLR)
module is proposed to collaboratively disentangle the visual and linguistic
spurious correlations via front-door and back-door causal interventions. To
model the fine-grained interactions between linguistic semantics and
spatial-temporal representations, we build a Spatial-Temporal Transformer (STT)
that creates multi-modal co-occurrence interactions between visual and
linguistic content. To adaptively fuse the causality-ware visual and linguistic
features, we introduce a Visual-Linguistic Feature Fusion (VLFF) module that
leverages the hierarchical linguistic semantic relations as the guidance to
learn the global semantic-aware visual-linguistic representations adaptively.
Extensive experiments on four event-level datasets demonstrate the superiority
of our CMCIR in discovering visual-linguistic causal structures and achieving
robust event-level visual question answering.
- Abstract(参考訳): 既存の視覚的質問応答法は、モーダルなスプリアス相関を捉え、支配的な視覚的証拠と質問意図に基づいて、真に推論を促進する真の因果メカニズムを発見できない傾向にある。
さらに、既存のメソッドは通常、イベントの時間性、因果性、ダイナミクスを共同でモデル化する必要がある、クロスモーダルなイベントレベルの理解を無視する。
本研究では,視覚的および言語的モダリティの真の因果構造を発見するための因果的介入手法を導入することにより,新たな視点,すなわちクロスモーダル因果関係推論からイベントレベルの視覚的質問応答に焦点をあてる。
具体的には、堅牢な因果認識型視覚言語質問応答を実現するために、Cross-Modal Causal RelatIonal Reasoning (CMCIR) と呼ばれる新しいイベントレベルの視覚的質問応答フレームワークを提案する。
相互因果構造を発見するために,視覚的・言語的因果関係を前方・後方の因果的介入を通じて協調的に解離させるために,CVLRモジュールを提案する。
言語意味論と時空間表現のきめ細かい相互作用をモデル化するために,視覚コンテンツと言語コンテンツ間のマルチモーダルな共起相互作用を生成する空間時間変換器(STT)を構築した。
因果認識の視覚的特徴と言語的特徴を適応的に融合させるために,階層的意味論的関係を利用した視覚言語的特徴融合(VLFF)モジュールを導入する。
4つのイベントレベルのデータセットに対する大規模な実験は、視覚言語学的因果構造を発見し、堅牢なイベントレベルの視覚的質問応答を実現する上で、CMCIRの優位性を示している。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。
我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。
COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-12T08:13:52Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。
視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。
言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文 参考訳(メタデータ) (2023-04-17T08:56:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。