Fugu-MT 論文翻訳(概要): Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

論文の概要: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

arxiv url: http://arxiv.org/abs/2207.12647v5
Date: Tue, 18 Apr 2023 03:44:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 18:41:09.695719
Title: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering
Title（参考訳）: イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論
Authors: Yang Liu, Guanbin Li, Liang Lin
Abstract要約: 我々は,Cross-Modal Causal RelatIonal Reasoning (CMCIR) という新しいイベントレベルの視覚的質問応答フレームワークを提案する。クロスモーダル因果構造を発見するために,視覚言語推論(CVLR)モジュールを提案する。言語意味論と時空間表現のきめ細かい相互作用をモデル化するために、時空間変換器(STT)を構築する。因果認識の視覚的特徴と言語的特徴を適応的に融合させるために,視覚言語的特徴融合(VLFF)モジュールを導入する。
参考スコア（独自算出の注目度）: 134.91774666260338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing visual question answering methods tend to capture the cross-modal spurious correlations and fail to discover the true causal mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the question intention. Additionally, the existing methods usually ignore the cross-modal event-level understanding that requires to jointly model event temporality, causality, and dynamics. In this work, we focus on event-level visual question answering from a new perspective, i.e., cross-modal causal relational reasoning, by introducing causal intervention methods to discover the true causal structures for visual and linguistic modalities. Specifically, we propose a novel event-level visual question answering framework named Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust causality-aware visual-linguistic question answering. To discover cross-modal causal structures, the Causality-aware Visual-Linguistic Reasoning (CVLR) module is proposed to collaboratively disentangle the visual and linguistic spurious correlations via front-door and back-door causal interventions. To model the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build a Spatial-Temporal Transformer (STT) that creates multi-modal co-occurrence interactions between visual and linguistic content. To adaptively fuse the causality-ware visual and linguistic features, we introduce a Visual-Linguistic Feature Fusion (VLFF) module that leverages the hierarchical linguistic semantic relations as the guidance to learn the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering.
Abstract（参考訳）: 既存の視覚的質問応答法は、モーダルなスプリアス相関を捉え、支配的な視覚的証拠と質問意図に基づいて、真に推論を促進する真の因果メカニズムを発見できない傾向にある。さらに、既存のメソッドは通常、イベントの時間性、因果性、ダイナミクスを共同でモデル化する必要がある、クロスモーダルなイベントレベルの理解を無視する。本研究では,視覚的および言語的モダリティの真の因果構造を発見するための因果的介入手法を導入することにより,新たな視点,すなわちクロスモーダル因果関係推論からイベントレベルの視覚的質問応答に焦点をあてる。具体的には、堅牢な因果認識型視覚言語質問応答を実現するために、Cross-Modal Causal RelatIonal Reasoning (CMCIR) と呼ばれる新しいイベントレベルの視覚的質問応答フレームワークを提案する。相互因果構造を発見するために,視覚的・言語的因果関係を前方・後方の因果的介入を通じて協調的に解離させるために,CVLRモジュールを提案する。言語意味論と時空間表現のきめ細かい相互作用をモデル化するために,視覚コンテンツと言語コンテンツ間のマルチモーダルな共起相互作用を生成する空間時間変換器(STT)を構築した。因果認識の視覚的特徴と言語的特徴を適応的に融合させるために,階層的意味論的関係を利用した視覚言語的特徴融合(VLFF)モジュールを導入する。 4つのイベントレベルのデータセットに対する大規模な実験は、視覚言語学的因果構造を発見し、堅牢なイベントレベルの視覚的質問応答を実現する上で、CMCIRの優位性を示している。

関連論文リスト

Cross-Modal Dual-Causal Learning for Long-Term Action Recognition [0.0]
長期的行動認識(LTAR)は、複雑な原子的行動相関と視覚的共同創設者による時間的範囲の延長によって困難である。本稿では,ビデオとラベルテキスト間の因果関係を明らかにするための構造因果モデルを提案する。
論文参考訳（メタデータ） (2025-07-09T07:22:54Z)
Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models [12.31624700475112]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて高い性能を示す。それらはしばしば、対象の幻覚に悩まされる - 入力と矛盾する、あるいは完全に欠落している物体の記述を生成する。因果的介入を通じて幻覚を緩和する因果的非絡み合いの枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T03:53:00Z)
Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文参考訳（メタデータ） (2025-03-08T11:13:05Z)
Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文参考訳（メタデータ） (2024-06-14T13:28:03Z)
Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。 BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文参考訳（メタデータ） (2024-04-16T02:40:35Z)
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。 COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文参考訳（メタデータ） (2024-03-12T08:13:52Z)
LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文参考訳（メタデータ） (2023-07-26T12:13:00Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。 NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文参考訳（メタデータ） (2023-05-07T09:05:19Z)
VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文参考訳（メタデータ） (2023-04-17T08:56:16Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。 RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文参考訳（メタデータ） (2020-09-10T16:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。