Fugu-MT 論文翻訳(概要): Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

論文の概要: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

arxiv url: http://arxiv.org/abs/2207.12647v1
Date: Tue, 26 Jul 2022 04:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-27 12:19:57.973003
Title: Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering
Title（参考訳）: イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論
Authors: Yang Liu, Guanbin Li, Liang Lin
Abstract要約: 我々は,Cross-Modal Causal RelatIonal Reasoning (CMCIR) という新しいイベントレベルの視覚的質問応答フレームワークを提案する。視覚的・言語的モダリティの因果構造を明らかにするために,新しい視覚言語推論モジュール(CVLR)を提案する。
参考スコア（独自算出の注目度）: 134.91774666260338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing visual question answering methods tend to capture the spurious correlations from visual and linguistic modalities, and fail to discover the true casual mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the correct question intention. Additionally, the existing methods usually ignore the complex event-level understanding in multi-modal settings that requires a strong cognitive capability of causal inference to jointly model cross-modal event temporality, causality, and dynamics. In this work, we focus on event-level visual question answering from a new perspective, i.e., cross-modal causal relational reasoning, by introducing causal intervention methods to mitigate the spurious correlations and discover the true causal structures for the integration of visual and linguistic modalities. Specifically, we propose a novel event-level visual question answering framework named Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust casuality-aware visual-linguistic question answering. To uncover the causal structures for visual and linguistic modalities, the novel Causality-aware Visual-Linguistic Reasoning (CVLR) module is proposed to collaboratively disentangle the visual and linguistic spurious correlations via elaborately designed front-door and back-door causal intervention modules. To discover the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build a novel Spatial-Temporal Transformer (STT) that builds the multi-modal co-occurrence interactions between visual and linguistic content. Extensive experiments on large-scale event-level urban dataset SUTD-TrafficQA and three benchmark real-world datasets TGIF-QA, MSVD-QA, and MSRVTT-QA demonstrate the effectiveness of our CMCIR for discovering visual-linguistic causal structures.
Abstract（参考訳）: 既存の視覚的質問応答法は、視覚的・言語的モダリティから突発的な相関関係を捉え、支配的な視覚的証拠と正しい質問意図に基づいて真に推論を促進する真のカジュアルなメカニズムを発見できない傾向にある。加えて、既存の手法では複雑な事象レベルの理解を無視することが多いが、これは因果推論の強力な認知能力を必要とし、相互モーダル事象の時間性、因果性、ダイナミクスを共同でモデル化する。本研究では,新しい視点,すなわちクロスモーダル因果関係推論(cross-modal causal relational reasoning)に着目し,スプリアス相関を緩和し,視覚と言語統合のための真の因果構造を発見するための因果的介入手法を導入する。具体的には,CCRIR(Cross-Modal Causal RelatIonal Reasoning)と呼ばれるイベントレベルの視覚的質問応答フレームワークを提案する。視覚的・言語的モダリティの因果構造を明らかにするため,視覚的・言語的因果関係を複雑に設計し,視覚的・言語的因果関係を包含するCVLR(Causality-aware Visual-Linguistic Reasoning)モジュールが提案されている。言語意味論と時空間表現のきめ細かい相互作用を発見するために,視覚コンテンツと言語コンテンツ間のマルチモーダルな共起相互作用を構築する新しい空間時間変換器(STT)を構築した。大規模イベントレベル都市データセットSUTD-TrafficQAと3つのベンチマーク実世界のデータセットTGIF-QA、MSVD-QA、MSRVTT-QAの大規模な実験により、視覚言語学的因果構造を発見するためのCMCIRの有効性が実証された。

関連論文リスト

Cross-Modal Dual-Causal Learning for Long-Term Action Recognition [0.0]
長期的行動認識(LTAR)は、複雑な原子的行動相関と視覚的共同創設者による時間的範囲の延長によって困難である。本稿では,ビデオとラベルテキスト間の因果関係を明らかにするための構造因果モデルを提案する。
論文参考訳（メタデータ） (2025-07-09T07:22:54Z)
Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models [12.31624700475112]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて高い性能を示す。それらはしばしば、対象の幻覚に悩まされる - 入力と矛盾する、あるいは完全に欠落している物体の記述を生成する。因果的介入を通じて幻覚を緩和する因果的非絡み合いの枠組みを提案する。
論文参考訳（メタデータ） (2025-05-26T03:53:00Z)
Treble Counterfactual VLMs: A Causal Approach to Hallucination [6.3952983618258665]
VisionLanguage Models (VLM) には、画像キャプション、視覚的質問応答、推論といった高度なマルチモーダルタスクがある。視覚的文脈やプロンプトと矛盾しない幻覚出力をしばしば生成する。既存の研究では、幻覚は統計的バイアス、言語優先、偏見のある特徴学習と結びついているが、構造的な因果理解は欠如している。
論文参考訳（メタデータ） (2025-03-08T11:13:05Z)
Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文参考訳（メタデータ） (2024-06-14T13:28:03Z)
Vision-and-Language Navigation via Causal Learning [13.221880074458227]
クロスモーダル因果変換器(Cross-modal causal transformer, GOAT)は因果推論のパラダイムに根ざした先駆的な解である。 BACLおよびFACLモジュールは、潜在的刺激的相関を包括的に緩和することにより、偏見のない学習を促進する。グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリングモジュールを提案する。
論文参考訳（メタデータ） (2024-04-16T02:40:35Z)
Complex Reasoning over Logical Queries on Commonsense Knowledge Graphs [61.796960984541464]
論理クエリをサンプリングして作成した新しいデータセットであるCOM2(COMplex COMmonsense)を提示する。我々は、手書きのルールと大きな言語モデルを用いて、複数の選択とテキスト生成の質問に言語化します。 COM2でトレーニングされた言語モデルでは、複雑な推論能力が大幅に改善されている。
論文参考訳（メタデータ） (2024-03-12T08:13:52Z)
LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文参考訳（メタデータ） (2023-07-26T12:13:00Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。 NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文参考訳（メタデータ） (2023-05-07T09:05:19Z)
VCD: Visual Causality Discovery for Cross-Modal Question Reasoning [11.161509939879428]
我々は,Cross-Modal Question Reasoning (CMQR) という視覚的質問推論フレームワークを提案する。視覚因果構造を明らかにするために,視覚因果発見(VCD)アーキテクチャを提案する。言語意味論と時空間表現の微粒な相互作用を調整するために,対話型視覚言語変換器(IVLT)を構築した。
論文参考訳（メタデータ） (2023-04-17T08:56:16Z)
Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-16T07:23:55Z)
Visual Relationship Detection with Visual-Linguistic Knowledge from Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。 RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文参考訳（メタデータ） (2020-09-10T16:15:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。