論文の概要: Causality-aware Visual Scene Discovery for Cross-Modal Question
Reasoning
- arxiv url: http://arxiv.org/abs/2304.08083v1
- Date: Mon, 17 Apr 2023 08:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 16:06:22.220211
- Title: Causality-aware Visual Scene Discovery for Cross-Modal Question
Reasoning
- Title(参考訳): モーダルな質問応答のための因果認識型ビジュアルシーン発見
- Authors: Yang Liu, Guanbin Li, Liang Lin
- Abstract要約: 我々は,Cross-Modal Question Reasoning (CMQR) というイベントレベルの視覚的質問推論フレームワークを提案する。
視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。
言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
- 参考スコア(独自算出の注目度): 134.91774666260338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual question reasoning methods usually fail to explicitly
discover the inherent causal mechanism and ignore the complex event-level
understanding that requires jointly modeling cross-modal event temporality and
causality. In this paper, we propose an event-level visual question reasoning
framework named Cross-Modal Question Reasoning (CMQR), to explicitly discover
temporal causal structure and mitigate visual spurious correlation by causal
intervention. To explicitly discover visual causal structure, the Visual
Causality Discovery (VCD) architecture is proposed to find question-critical
scene temporally and disentangle the visual spurious correlations by
attention-based front-door causal intervention module named Local-Global Causal
Attention Module (LGCAM). To align the fine-grained interactions between
linguistic semantics and spatial-temporal representations, we build an
Interactive Visual-Linguistic Transformer (IVLT) that builds the multi-modal
co-occurrence interactions between visual and linguistic content. Extensive
experiments on four datasets demonstrate the superiority of CMQR for
discovering visual causal structures and achieving robust question reasoning.
- Abstract(参考訳): 既存の視覚的疑問推論手法は、通常、固有の因果メカニズムを明示的に発見し、異種間事象の時間性と因果関係を共同でモデル化する必要がある複雑な事象レベルの理解を無視する。
本稿では,時間的因果構造を明示的に発見し,因果的介入による視覚的スプリアス相関を緩和するクロスモーダル問題推論(cmqr)という,イベントレベルのビジュアル質問推論フレームワークを提案する。
視覚的因果構造を明らかにするために,視覚因果関係発見(vcd)アーキテクチャを提案する。
言語意味論と空間-時間表現の細かな相互作用を調整するために,視覚と言語コンテンツの共起相互作用を構築する対話型視覚言語トランスフォーマ(ivlt)を構築した。
4つのデータセットに対する大規模な実験は、視覚因果構造を発見し、堅牢な質問推論を達成するためのCMQRの優位性を示している。
関連論文リスト
- Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:29:02Z) - Cause and Effect: Can Large Language Models Truly Understand Causality? [1.2334534968968969]
本研究では,CARE CA(Content Aware Reasoning Enhancement with Counterfactual Analysis)フレームワークという新しいアーキテクチャを提案する。
提案するフレームワークには,ConceptNetと反ファクト文を備えた明示的な因果検出モジュールと,大規模言語モデルによる暗黙的な因果検出が組み込まれている。
ConceptNetの知識は、因果的発見、因果的識別、反事実的推論といった複数の因果的推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:02:14Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Hierarchical Graph Neural Networks for Causal Discovery and Root Cause
Localization [52.72490784720227]
REASONはTopological Causal DiscoveryとPersonal Causal Discoveryで構成されている。
Topological Causal Discoveryコンポーネントは、根本原因を辿るために断層伝播をモデル化することを目的としている。
個々の因果発見コンポーネントは、単一のシステムエンティティの突然の変化パターンのキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2023-02-03T20:17:45Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。