論文の概要: Visual Grounding Methods for VQA are Working for the Wrong Reasons!
- arxiv url: http://arxiv.org/abs/2004.05704v4
- Date: Tue, 23 Apr 2024 13:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 20:31:21.493198
- Title: Visual Grounding Methods for VQA are Working for the Wrong Reasons!
- Title(参考訳): VQAのためのビジュアルグラウンドディングメソッドが間違った理由のために作業中!
- Authors: Robik Shrestha, Kushal Kafle, Christopher Kanan,
- Abstract要約: 性能改善は、視覚的接地の改善の結果ではなく、正規化効果であることを示す。
本稿では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現する簡易な正規化手法を提案する。
- 参考スコア(独自算出の注目度): 24.84797949716142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Visual Question Answering (VQA) methods tend to exploit dataset biases and spurious statistical correlations, instead of producing right answers for the right reasons. To address this issue, recent bias mitigation methods for VQA propose to incorporate visual cues (e.g., human attention maps) to better ground the VQA models, showcasing impressive gains. However, we show that the performance improvements are not a result of improved visual grounding, but a regularization effect which prevents over-fitting to linguistic priors. For instance, we find that it is not actually necessary to provide proper, human-based cues; random, insensible cues also result in similar improvements. Based on this observation, we propose a simpler regularization scheme that does not require any external annotations and yet achieves near state-of-the-art performance on VQA-CPv2.
- Abstract(参考訳): 既存のVisual Question Answering (VQA) メソッドは、正しい理由のために正しい回答を生成するのではなく、データセットのバイアスと突発的な統計的相関を利用する傾向がある。
この問題に対処するため、近年のVQAのバイアス軽減手法では、視覚的手がかり(例えば、人間の注意マップ)をVQAモデルに組み込むことが提案されている。
しかし, 性能改善は視覚的接地の改善の結果ではなく, 言語的先行に過度に適合しない正規化効果を示す。
例えば、適切な人間ベースの手がかりを提供する必要はなく、ランダムで無感覚な手がかりも同様の改善をもたらす。
そこで本研究では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現した簡易な正規化手法を提案する。
関連論文リスト
- Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Answer Questions with Right Image Regions: A Visual Attention
Regularization Approach [46.55924742590242]
本稿では,視覚質問応答(VQA)における視覚的グラウンドニングを改善するために,新しい視覚的注意規則化手法であるAttRegを提案する。
AttRegは、バックボーンモデルによって予期せず無視される質問応答に不可欠なイメージ領域を特定する。
VQA-CP v2ベンチマークデータセットの絶対的なパフォーマンス向上は6.93%である。
論文 参考訳(メタデータ) (2021-02-03T07:33:30Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder [12.56413718364189]
VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T05:36:36Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。