論文の概要: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2207.12647v8
- Date: Wed, 7 Jun 2023 07:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 20:10:51.412041
- Title: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering
- Title(参考訳): イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論
- Authors: Yang Liu, Guanbin Li, Liang Lin
- Abstract要約: 既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 134.91774666260338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual question answering methods often suffer from cross-modal
spurious correlations and oversimplified event-level reasoning processes that
fail to capture event temporality, causality, and dynamics spanning over the
video. In this work, to address the task of event-level visual question
answering, we propose a framework for cross-modal causal relational reasoning.
In particular, a set of causal intervention operations is introduced to
discover the underlying causal structures across visual and linguistic
modalities. Our framework, named Cross-Modal Causal RelatIonal Reasoning
(CMCIR), involves three modules: i) Causality-aware Visual-Linguistic Reasoning
(CVLR) module for collaboratively disentangling the visual and linguistic
spurious correlations via front-door and back-door causal interventions; ii)
Spatial-Temporal Transformer (STT) module for capturing the fine-grained
interactions between visual and linguistic semantics; iii) Visual-Linguistic
Feature Fusion (VLFF) module for learning the global semantic-aware
visual-linguistic representations adaptively. Extensive experiments on four
event-level datasets demonstrate the superiority of our CMCIR in discovering
visual-linguistic causal structures and achieving robust event-level visual
question answering. The datasets, code, and models are available at
https://github.com/HCPLab-SYSU/CMCIR.
- Abstract(参考訳): 既存の視覚的質問応答手法は、しばしばクロスモーダルなスプリアス相関や、ビデオにまたがる事象の時間性、因果性、ダイナミクスを捉えるのに失敗するイベントレベルの推論プロセスを単純化してしまう。
本稿では,イベントレベルの視覚的質問応答のタスクに対処するため,クロスモーダル因果関係推論のためのフレームワークを提案する。
特に、視覚的および言語的モダリティにまたがる因果構造を発見するために、一連の因果的介入操作が導入された。
私たちのフレームワークは、Cross-Modal Causal RelatIonal Reasoning (CMCIR)と呼ばれ、3つのモジュールを含んでいる。
一 正面的及び裏的因果的介入による視覚的及び言語的スプリアス相関を共同的に区別する因果性認識視覚言語的推論(cvlr)モジュール
二 視覚的・言語的意味論のきめ細かい相互作用を捉えるための時空間変換器(STT)モジュール
三 グローバル意味認識視覚言語表現を適応的に学習するための視覚言語機能融合(vlff)モジュール
4つのイベントレベルのデータセットに対する大規模な実験は、視覚言語学的因果構造を発見し、堅牢なイベントレベルの視覚的質問応答を実現する上で、CMCIRの優位性を示している。
データセット、コード、モデルはhttps://github.com/HCPLab-SYSU/CMCIRで公開されている。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。
BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。
グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-16T02:40:35Z) - Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。
我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。
COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-12T08:13:52Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。
視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。
言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文 参考訳(メタデータ) (2023-04-17T08:56:16Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。