論文の概要: Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA
- arxiv url: http://arxiv.org/abs/2305.19664v1
- Date: Wed, 31 May 2023 09:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:38:51.153446
- Title: Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA
- Title(参考訳): 視覚的質問応答における横断的モダリティバイアスの発見--可能性世界VQAによる因果的視点
- Authors: Ali Vosoughi, Shijian Deng, Songyang Zhang, Yapeng Tian, Chenliang Xu,
Jiebo Luo
- Abstract要約: まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 111.41719652451701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To increase the generalization capability of VQA systems, many recent studies
have tried to de-bias spurious language or vision associations that shortcut
the question or image to the answer. Despite these efforts, the literature
fails to address the confounding effect of vision and language simultaneously.
As a result, when they reduce bias learned from one modality, they usually
increase bias from the other. In this paper, we first model a confounding
effect that causes language and vision bias simultaneously, then propose a
counterfactual inference to remove the influence of this effect. The model
trained in this strategy can concurrently and efficiently reduce vision and
language bias. To the best of our knowledge, this is the first work to reduce
biases resulting from confounding effects of vision and language in VQA,
leveraging causal explain-away relations. We accompany our method with an
explain-away strategy, pushing the accuracy of the questions with numerical
answers results compared to existing methods that have been an open problem.
The proposed method outperforms the state-of-the-art methods in VQA-CP v2
datasets.
- Abstract(参考訳): VQAシステムの一般化能力を高めるために、近年の多くの研究は、質問やイメージを短くする急激な言語や視覚的関連を脱バイアスしようと試みている。
これらの努力にもかかわらず、この文学は視覚と言語が混在する影響に同時に対処することができない。
その結果、あるモダリティから学んだバイアスを減らすと、通常は別のモダリティからバイアスを増す。
本稿では,まず,言語と視覚のバイアスを同時に生じさせる共起効果をモデル化し,その影響を除去するための反実的推論を提案する。
この戦略で訓練されたモデルは、視覚と言語バイアスを同時かつ効率的に低減することができる。
我々の知る限りでは、VQAにおける視覚と言語の影響の相違によるバイアスを減らし、因果関係を利用した最初の研究である。
提案手法は,解答結果の精度を,解答問題である既存の解法と比較して推し進めるものである。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
関連論文リスト
- Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - An Empirical Study on the Language Modal in Visual Question Answering [31.692905677913068]
ドメイン内エクスペリエンスからアウト・オブ・ディストリビューションデータへの一般化は、AIドメインにおいて最重要事項である。
本稿では,VQAの性能に及ぼす言語モダリティの影響について,新たな知見を提供する。
論文 参考訳(メタデータ) (2023-05-17T11:56:40Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Language bias in Visual Question Answering: A Survey and Taxonomy [0.0]
われわれはこの分野の総合的なレビューと分析を初めて実施する。
既存の手法を視覚情報の改善を含む3つのカテゴリに分類する。
言語バイアスの原因は明らかにされ、分類される。
論文 参考訳(メタデータ) (2021-11-16T15:01:24Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。