論文の概要: Cross-Modal Contrastive Learning for Robust Reasoning in VQA
- arxiv url: http://arxiv.org/abs/2211.11190v1
- Date: Mon, 21 Nov 2022 05:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:52:40.163044
- Title: Cross-Modal Contrastive Learning for Robust Reasoning in VQA
- Title(参考訳): VQAにおけるロバスト推論のためのクロスモーダルコントラスト学習
- Authors: Qi Zheng, Chaoyue Wang, Daqing Liu, Dadong Wang, Dacheng Tao
- Abstract要約: 視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
- 参考スコア(独自算出の注目度): 76.1596796687494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal reasoning in visual question answering (VQA) has witnessed rapid
progress recently. However, most reasoning models heavily rely on shortcuts
learned from training data, which prevents their usage in challenging
real-world scenarios. In this paper, we propose a simple but effective
cross-modal contrastive learning strategy to get rid of the shortcut reasoning
caused by imbalanced annotations and improve the overall performance. Different
from existing contrastive learning with complex negative categories on coarse
(Image, Question, Answer) triplet level, we leverage the correspondences
between the language and image modalities to perform finer-grained cross-modal
contrastive learning. We treat each Question-Answer (QA) pair as a whole, and
differentiate between images that conform with it and those against it. To
alleviate the issue of sampling bias, we further build connected graphs among
images. For each positive pair, we regard the images from different graphs as
negative samples and deduct the version of multi-positive contrastive learning.
To our best knowledge, it is the first paper that reveals a general contrastive
learning strategy without delicate hand-craft rules can contribute to robust
VQA reasoning. Experiments on several mainstream VQA datasets demonstrate our
superiority compared to the state of the arts. Code is available at
\url{https://github.com/qizhust/cmcl_vqa_pl}.
- Abstract(参考訳): 視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
しかし、ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しており、実世界のシナリオでの使用を妨げている。
本稿では,不均衡なアノテーションによるショートカット推論を排除し,全体的な性能を向上させるための,単純かつ効果的な相互比較学習戦略を提案する。
粗度(画像,質問,回答)の複雑な負のカテゴリを持つ既存のコントラスト学習とは違い,言語と画像モダリティの対応を利用して,よりきめ細かいクロスモーダルコントラスト学習を行う。
各質問応答(QA)ペアを全体として扱い、それに対応する画像とそれに対応する画像とを区別する。
バイアスをサンプリングする問題を緩和するため,画像間のコネクテッドグラフを更に構築する。
各正のペアに対して、異なるグラフからのイメージを負のサンプルとみなし、マルチ陽性コントラスト学習のバージョンを導出する。
我々の知る限り、繊細な手工規則のない一般的なコントラスト学習戦略が、堅牢なVQA推論に寄与することを示す最初の論文である。
いくつかの主流VQAデータセットの実験は、芸術の状況と比較して、私たちの優位性を示している。
コードは \url{https://github.com/qizhust/cmcl_vqa_pl} で入手できる。
関連論文リスト
- Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Exploring Negatives in Contrastive Learning for Unpaired Image-to-Image
Translation [12.754320302262533]
我々は、パッチをスペーシングし、ランキング付けすることで、アンペア画像から画像への変換(PUT)のための新しい負のプルーニング技術を導入する。
提案アルゴリズムは効率的で柔軟で,対応するパッチ間で本質的な情報を安定的に学習することができる。
論文 参考訳(メタデータ) (2022-04-23T08:31:18Z) - Adversarial Graph Contrastive Learning with Information Regularization [51.14695794459399]
コントラスト学習はグラフ表現学習において有効な方法である。
グラフ上のデータ拡張は、はるかに直感的ではなく、高品質のコントラスト的なサンプルを提供するのがずっと難しい。
逆グラフ比較学習(Adversarial Graph Contrastive Learning, ARIEL)を提案する。
さまざまな実世界のデータセット上でのノード分類タスクにおいて、現在のグラフのコントラスト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-02-14T05:54:48Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - Delving into Inter-Image Invariance for Unsupervised Visual
Representations [108.33534231219464]
画像間不変学習の役割をよりよく理解するための研究を提案する。
オンラインラベルはオフラインラベルよりも早く収束する。
半硬な負のサンプルは、硬い負のサンプルよりも信頼性が高く、偏りがない。
論文 参考訳(メタデータ) (2020-08-26T17:44:23Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。