論文の概要: SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context
in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2204.02285v1
- Date: Tue, 5 Apr 2022 15:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:11:27.794814
- Title: SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context
in Visual Question Answering
- Title(参考訳): SwapMix:ビジュアル質問回答における視覚的コンテキストの過度信頼の診断と規則化
- Authors: Vipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li,
Alan Yuille
- Abstract要約: 本稿では,視覚質問応答モデル(VQA)の頑健性について,新しい視点から考察する。
SwapMixは、無関係なコンテキストオブジェクトの機能とデータセットの他のオブジェクトの機能とを交換することで、視覚的コンテキストを乱します。
完全視力でモデルをトレーニングし、コンテキストの過度依存が視覚表現の品質に大きく依存していることに気付きます。
- 参考スコア(独自算出の注目度): 20.35687327831644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Visual Question Answering (VQA) has progressed rapidly, previous works
raise concerns about robustness of current VQA models. In this work, we study
the robustness of VQA models from a novel perspective: visual context. We
suggest that the models over-rely on the visual context, i.e., irrelevant
objects in the image, to make predictions. To diagnose the model's reliance on
visual context and measure their robustness, we propose a simple yet effective
perturbation technique, SwapMix. SwapMix perturbs the visual context by
swapping features of irrelevant context objects with features from other
objects in the dataset. Using SwapMix we are able to change answers to more
than 45 % of the questions for a representative VQA model. Additionally, we
train the models with perfect sight and find that the context over-reliance
highly depends on the quality of visual representations. In addition to
diagnosing, SwapMix can also be applied as a data augmentation strategy during
training in order to regularize the context over-reliance. By swapping the
context object features, the model reliance on context can be suppressed
effectively. Two representative VQA models are studied using SwapMix: a
co-attention model MCAN and a large-scale pretrained model LXMERT. Our
experiments on the popular GQA dataset show the effectiveness of SwapMix for
both diagnosing model robustness and regularizing the over-reliance on visual
context. The code for our method is available at
https://github.com/vipulgupta1011/swapmix
- Abstract(参考訳): Visual Question Answering (VQA)は急速に進歩しているが、以前の研究は現在のVQAモデルの堅牢性に関する懸念を提起している。
本稿では,新しい視点からVQAモデルの堅牢性について考察する。
モデルが視覚的文脈、すなわち画像内の無関係な物体を過度に反映して予測することを提案する。
モデルの視覚的コンテキスト依存度を診断し,そのロバスト性を測定するため,簡易かつ効果的な摂動法であるswapmixを提案する。
SwapMixは、無関係なコンテキストオブジェクトの機能とデータセットの他のオブジェクトの機能とを交換することで、視覚的コンテキストを乱します。
SwapMixを使うことで、代表的VQAモデルの回答を45%以上にすることが可能になります。
さらに、完全視力でモデルをトレーニングし、コンテキストの過度依存が視覚表現の品質に大きく依存していることを確認する。
診断に加えて、SwapMixは、トレーニング中のコンテキスト過信を規則化するために、データ拡張戦略として適用することもできる。
コンテキストオブジェクトの特徴をスワップすることで、コンテキストに依存したモデルが効果的に抑制できる。
2つの代表的なvqaモデルがswapmixを使って研究されている:コアテンションモデルmcanと大規模事前トレーニングモデルlxmertである。
一般的なGQAデータセットを用いた実験は、モデルの堅牢性を診断し、視覚的コンテキストにおける過度信頼度を正当化するためのSwapMixの有効性を示す。
このメソッドのコードはhttps://github.com/vipulgupta1011/swapmixで入手できる。
関連論文リスト
- VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Using Visual Cropping to Enhance Fine-Detail Question Answering of
BLIP-Family Models [6.063024872936599]
視覚的トリミングは,詳細な質問に対して,最先端の視覚的質問応答モデルの性能を向上させることができるかを検討する。
CLIPとBLIPビジュアルQAモデル勾配によるマルチモーダル埋め込みに基づく2つの自動収穫戦略を考案する。
原画像と勾配画像の連結を単純に入力することで,一般VQAランダムタスクの4.59%(絶対)の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T22:48:27Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。