論文の概要: Counterfactual Samples Synthesizing for Robust Visual Question Answering
- arxiv url: http://arxiv.org/abs/2003.06576v1
- Date: Sat, 14 Mar 2020 08:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 20:04:15.262714
- Title: Counterfactual Samples Synthesizing for Robust Visual Question Answering
- Title(参考訳): 頑健な視覚質問応答のための対物サンプル合成
- Authors: Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting
Zhuang
- Abstract要約: モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
- 参考スコア(独自算出の注目度): 104.72828511083519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Visual Question Answering (VQA) has realized impressive progress over
the last few years, today's VQA models tend to capture superficial linguistic
correlations in the train set and fail to generalize to the test set with
different QA distributions. To reduce the language biases, several recent works
introduce an auxiliary question-only model to regularize the training of
targeted VQA model, and achieve dominating performance on VQA-CP. However,
since the complexity of design, current methods are unable to equip the
ensemble-based models with two indispensable characteristics of an ideal VQA
model: 1) visual-explainable: the model should rely on the right visual regions
when making decisions. 2) question-sensitive: the model should be sensitive to
the linguistic variations in question. To this end, we propose a model-agnostic
Counterfactual Samples Synthesizing (CSS) training scheme. The CSS generates
numerous counterfactual training samples by masking critical objects in images
or words in questions, and assigning different ground-truth answers. After
training with the complementary samples (ie, the original and generated
samples), the VQA models are forced to focus on all critical objects and words,
which significantly improves both visual-explainable and question-sensitive
abilities. In return, the performance of these models is further boosted.
Extensive ablations have shown the effectiveness of CSS. Particularly, by
building on top of the model LMH, we achieve a record-breaking performance of
58.95% on VQA-CP v2, with 6.5% gains.
- Abstract(参考訳): VQA(Visual Question Answering)は、ここ数年で目覚ましい進歩を遂げてきたが、今日のVQAモデルは、列車の表層言語的相関を捉え、異なるQA分布を持つテストセットに一般化できない傾向にある。
言語バイアスを低減するために、近年のいくつかの研究は、ターゲットとするVQAモデルのトレーニングを規則化し、VQA-CP上での優位性を達成するための補助的な質問専用モデルを導入している。
しかし、設計の複雑さのため、現在の手法は理想的なVQAモデルの2つの必須特性を持つアンサンブルベースモデルに装備できない。
1) 視覚的説明可能:モデルは決定を行う際に適切な視覚領域に依存するべきである。
2) 質問感応性: モデルは問題の言語的変異に敏感であるべきである。
そこで本研究では,css(model-specific counterfactual samples synthesizing)トレーニング方式を提案する。
CSSは、画像や質問中の単語に重要なオブジェクトを隠蔽し、異なる接地的回答を割り当てることで、多数の対物的トレーニングサンプルを生成する。
相補的なサンプル(すなわち、オリジナルと生成されたサンプル)でトレーニングした後、VQAモデルはすべての重要なオブジェクトと単語に集中せざるを得なくなり、視覚的に説明可能な能力と質問に敏感な能力の両方が大幅に改善される。
その代わり、これらのモデルの性能はさらに向上する。
広範なアブレーションはcssの有効性を示している。
特に、LMHモデルの上に構築することで、VQA-CP v2上で58.95%の記録破り性能を実現し、6.5%のゲインを得た。
関連論文リスト
- Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。