論文の概要: Contrast and Classify: Training Robust VQA Models
- arxiv url: http://arxiv.org/abs/2010.06087v2
- Date: Mon, 19 Apr 2021 03:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:46:19.519730
- Title: Contrast and Classify: Training Robust VQA Models
- Title(参考訳): 対比と分類:ロバストなVQAモデルのトレーニング
- Authors: Yash Kant, Abhinav Moudgil, Dhruv Batra, Devi Parikh, Harsh Agrawal
- Abstract要約: 本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
- 参考スコア(独自算出の注目度): 60.80627814762071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Visual Question Answering (VQA) models have shown impressive
performance on the VQA benchmark but remain sensitive to small linguistic
variations in input questions. Existing approaches address this by augmenting
the dataset with question paraphrases from visual question generation models or
adversarial perturbations. These approaches use the combined data to learn an
answer classifier by minimizing the standard cross-entropy loss. To more
effectively leverage augmented data, we build on the recent success in
contrastive learning. We propose a novel training paradigm (ConClaT) that
optimizes both cross-entropy and contrastive losses. The contrastive loss
encourages representations to be robust to linguistic variations in questions
while the cross-entropy loss preserves the discriminative power of
representations for answer prediction.
We find that optimizing both losses -- either alternately or jointly -- is
key to effective training. On the VQA-Rephrasings benchmark, which measures the
VQA model's answer consistency across human paraphrases of a question, ConClaT
improves Consensus Score by 1 .63% over an improved baseline. In addition, on
the standard VQA 2.0 benchmark, we improve the VQA accuracy by 0.78% overall.
We also show that ConClaT is agnostic to the type of data-augmentation strategy
used.
- Abstract(参考訳): 最近のVisual Question Answering (VQA)モデルでは、VQAベンチマークでは印象的な性能を示しているが、入力質問の小さな言語的バリエーションに敏感である。
既存のアプローチでは、視覚的な質問生成モデルや対向的摂動から質問パラフレーズでデータセットを拡張することで、この問題に対処している。
これらの手法は、標準のクロスエントロピー損失を最小限に抑えて解答分類器を学習するために、組み合わせたデータを使用する。
強化データをより効果的に活用するために,最近のコントラスト学習の成功に基づいて構築した。
クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
対照的な損失は、質問の言語的変化に対して頑健な表現を奨励する一方で、クロスエントロピー損失は、回答予測のための表現の識別力を維持する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることが分かっています。
VQA-Rephrasingsベンチマークでは、質問の人間のパラフレーズ間でのVQAモデルの応答一貫性を計測し、ConClaTはベースラインの改善に対してConsensus Scoreを1.63%改善した。
さらに、標準VQA 2.0ベンチマークでは、VQAの精度が0.78%向上した。
また,conclatはデータ提供戦略の一種とは無関係であることを示した。
関連論文リスト
- Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - Logical Implications for Visual Question Answering Consistency [2.005299372367689]
本稿では,VQAモデルに広く適用可能な新しい整合損失項を提案する。
本稿では,これらの論理的関係を専用言語モデルを用いて推論し,一貫性損失関数として用いることを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-16T16:00:18Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Estimating semantic structure for the VQA answer space [6.49970685896541]
3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
VQAv2-CPデータセットのSOTAレベル性能について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:32:56Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。