論文の概要: Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2310.05410v1
- Date: Mon, 9 Oct 2023 05:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:41:48.646142
- Title: Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering
- Title(参考訳): 視覚質問応答における一般化改善のための2層認知による因果推論
- Authors: Trang Nguyen, Naoaki Okazaki
- Abstract要約: VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
- 参考スコア(独自算出の注目度): 28.071906755200043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization in Visual Question Answering (VQA) requires models to answer
questions about images with contexts beyond the training distribution. Existing
attempts primarily refine unimodal aspects, overlooking enhancements in
multimodal aspects. Besides, diverse interpretations of the input lead to
various modes of answer generation, highlighting the role of causal reasoning
between interpreting and answering steps in VQA. Through this lens, we propose
Cognitive pathways VQA (CopVQA) improving the multimodal predictions by
emphasizing causal reasoning factors. CopVQA first operates a pool of pathways
that capture diverse causal reasoning flows through interpreting and answering
stages. Mirroring human cognition, we decompose the responsibility of each
stage into distinct experts and a cognition-enabled component (CC). The two CCs
strategically execute one expert for each stage at a time. Finally, we
prioritize answer predictions governed by pathways involving both CCs while
disregarding answers produced by either CC, thereby emphasizing causal
reasoning and supporting generalization. Our experiments on real-life and
medical data consistently verify that CopVQA improves VQA performance and
generalization across baselines and domains. Notably, CopVQA achieves a new
state-of-the-art (SOTA) on PathVQA dataset and comparable accuracy to the
current SOTA on VQA-CPv2, VQAv2, and VQA RAD, with one-fourth of the model
size.
- Abstract(参考訳): VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
既存の試みは主にユニモーダルな側面を洗練し、マルチモーダルな側面の強化を見下ろしている。
さらに、入力の多様な解釈は、VQAにおける解釈と回答のステップの間の因果推論の役割を強調し、様々な応答生成のモードをもたらす。
このレンズを通して、因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAはまず、解釈と応答の段階を通じて様々な因果推論の流れを捉える経路のプールを運用する。
人間の認知を反映して、各ステージの責任を異なる専門家と認知可能なコンポーネント(CC)に分解する。
2つのCCは、各ステージごとに1つの専門家を戦略的に実行する。
最後に,いずれのCCによる回答も無視しながら,両CCが関与する経路による回答予測を優先し,因果推論を重視し,一般化を支援する。
実生活および医療データに関する我々の実験は、CopVQAがベースラインとドメイン間のVQA性能と一般化を改善することを一貫して検証している。
特に、CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
関連論文リスト
- II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering [15.65067042725113]
VQA(Visual Question Answering)におけるマルチモーダルマルチホップ推論の同定と改善のための新しいアイデアであるII-MMRを提案する。
II-MMRは、画像でVQA質問を受け取り、2つの新しい言語プロンプトを使用して答えに到達するための推論経路を見つける。
II-MMRは、ゼロショット設定と微調整設定の両方において、すべての推論ケースで有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T20:14:47Z) - VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization [15.554325659263316]
視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-11-01T19:43:56Z) - From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities [2.0681376988193843]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。