論文の概要: Counterfactual VQA: A Cause-Effect Look at Language Bias
- arxiv url: http://arxiv.org/abs/2006.04315v4
- Date: Thu, 1 Apr 2021 16:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 00:14:45.416211
- Title: Counterfactual VQA: A Cause-Effect Look at Language Bias
- Title(参考訳): 反事実的vqa: 言語バイアスに対する因果効果
- Authors: Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua,
Ji-Rong Wen
- Abstract要約: VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 117.84189187160005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: VQA models may tend to rely on language bias as a shortcut and thus fail to
sufficiently learn the multi-modal knowledge from both vision and language.
Recent debiasing methods proposed to exclude the language prior during
inference. However, they fail to disentangle the "good" language context and
"bad" language bias from the whole. In this paper, we investigate how to
mitigate language bias in VQA. Motivated by causal effects, we proposed a novel
counterfactual inference framework, which enables us to capture the language
bias as the direct causal effect of questions on answers and reduce the
language bias by subtracting the direct language effect from the total causal
effect. Experiments demonstrate that our proposed counterfactual inference
framework 1) is general to various VQA backbones and fusion strategies, 2)
achieves competitive performance on the language-bias sensitive VQA-CP dataset
while performs robustly on the balanced VQA v2 dataset without any augmented
data. The code is available at https://github.com/yuleiniu/cfvqa.
- Abstract(参考訳): VQAモデルはショートカットとして言語バイアスに依存する傾向があるため、視覚と言語の両方からマルチモーダルな知識を十分に習得することができない。
推論中に言語を除外する最近のデバイアス法が提案されている。
しかし、彼らは「良い」言語コンテキストと「悪い」言語バイアスを全体から切り離すことに失敗した。
本稿では,VQAにおける言語バイアスを軽減する方法について検討する。
因果的効果を動機として,質問に対する直接的な因果的影響として言語バイアスを捕捉し,全因果的効果から直接言語効果を減じることで言語バイアスを低減する,新たな因果的推論フレームワークを提案する。
実験により 提案する反事実推論フレームワークが
1) 様々なVQAバックボーンおよび核融合戦略に一般化される。
2) 言語バイアスに敏感なVQA-CPデータセット上での競合性能を実現すると同時に,拡張データなしでバランスの取れたVQA v2データセット上で堅牢に動作させる。
コードはhttps://github.com/yuleiniu/cfvqaで入手できる。
関連論文リスト
- Eliminating the Language Bias for Visual Question Answering with fine-grained Causal Intervention [9.859335795616028]
よりきめ細かい視点から言語バイアスを排除するために,CIBiという新たな因果介入訓練手法を提案する。
我々は、文脈バイアスを排除し、マルチモーダル表現を改善するために因果介入とコントラスト学習を用いる。
我々は,キーワードバイアスを抽出・排除するために,対実生成に基づく質問専用ブランチを新たに設計する。
論文 参考訳(メタデータ) (2024-10-14T06:09:16Z) - Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - Unveiling Cross Modality Bias in Visual Question Answering: A Causal
View with Possible Worlds VQA [111.41719652451701]
まず、言語と視覚のバイアスを同時に引き起こす相反する効果をモデル化する。
次に、この効果の影響を除去するための反実的推論を提案する。
提案手法は,VQA-CP v2データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-31T09:02:58Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Learning content and context with language bias for Visual Question
Answering [31.39505099600821]
CCBと呼ばれる新しい学習戦略を提案し、VQAモデルが言語バイアスでContent and Contextに依存する質問に答えるように強制する。
CCBはVQA-CP v2の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-12-21T06:22:50Z) - On the General Value of Evidence, and Bilingual Scene-Text Visual
Question Answering [120.64104995052189]
本稿では,2つの言語で表現された質問を含む,この問題に対処するための一歩を踏み出したデータセットを提案する。
推論を測定することは、偶然に正しい答えを罰することによって、直接一般化を促進する。
データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。
論文 参考訳(メタデータ) (2020-02-24T13:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。