論文の概要: Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2012.11528v1
- Date: Thu, 17 Dec 2020 12:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:15:41.946036
- Title: Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering
- Title(参考訳): 視覚質問応答のための自己教師付き学習による言語優先の克服
- Authors: Xi Zhu, Zhendong Mao, Chunxiao Liu, Peng Zhang, Bin Wang, and Yongdong
Zhang
- Abstract要約: ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
- 参考スコア(独自算出の注目度): 62.88124382512111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Visual Question Answering (VQA) models suffer from the language prior
problem, which is caused by inherent data biases. Specifically, VQA models tend
to answer questions (e.g., what color is the banana?) based on the
high-frequency answers (e.g., yellow) ignoring image contents. Existing
approaches tackle this problem by creating delicate models or introducing
additional visual annotations to reduce question dependency while strengthening
image dependency. However, they are still subject to the language prior problem
since the data biases have not been even alleviated. In this paper, we
introduce a self-supervised learning framework to solve this problem.
Concretely, we first automatically generate labeled data to balance the biased
data, and propose a self-supervised auxiliary task to utilize the balanced data
to assist the base VQA model to overcome language priors. Our method can
compensate for the data biases by generating balanced data without introducing
external annotations. Experimental results show that our method can
significantly outperform the state-of-the-art, improving the overall accuracy
from 49.50% to 57.59% on the most commonly used benchmark VQA-CP v2. In other
words, we can increase the performance of annotation-based methods by 16%
without using external annotations.
- Abstract(参考訳): ほとんどのVisual Question Answering (VQA)モデルは、固有のデータバイアスによって引き起こされる言語前の問題に悩まされている。
具体的には、VQAモデルは質問に答える傾向がある(例えば、バナナは何色か?
画像内容を無視した高周波応答(例えばイエロー)に基づいて。
既存のアプローチでは、繊細なモデルを作成したり、画像依存性を強化しながら質問依存を減らす視覚アノテーションを追加することでこの問題に対処している。
しかし、データバイアスが緩和されてはいないため、まだ言語に先行する問題に直面している。
本稿では,この問題を解決するための自己教師付き学習フレームワークを提案する。
具体的には,まずラベル付きデータを自動生成してバイアスデータのバランスをとるとともに,バランスの取れたデータを活用する自己教師付き補助タスクを提案する。
本手法は,外部アノテーションを導入することなく,バランスデータを生成することにより,データのバイアスを補償する。
実験結果から,最も一般的に使用されているベンチマークVQA-CP v2の精度は49.50%から57.59%に向上した。
言い換えれば、外部アノテーションを使わずにアノテーションベースのメソッドのパフォーマンスを16%向上させることができる。
関連論文リスト
- The curse of language biases in remote sensing VQA: the role of spatial
attributes, language diversity, and the need for clear evaluation [32.7348470366509]
RSVQAの目的は、リモートセンシング画像に関する自然言語で定式化された質問に答えることである。
言語バイアスの問題はしばしばリモートセンシングコミュニティで見過ごされている。
本研究の目的は,RSVQAにおける言語バイアスの問題を3重解析戦略を用いて強調することである。
論文 参考訳(メタデータ) (2023-11-28T13:45:15Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - SC-ML: Self-supervised Counterfactual Metric Learning for Debiased
Visual Question Answering [10.749155815447127]
画像特徴に着目した自己教師付き対実測位学習法(SC-ML)を提案する。
SC-MLは、質問関連視覚特徴を適応的に選択し、質問関連視覚特徴の負の影響を低減できる。
論文 参考訳(メタデータ) (2023-04-04T09:05:11Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder [12.56413718364189]
VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-13T05:36:36Z) - Visual Grounding Methods for VQA are Working for the Wrong Reasons! [24.84797949716142]
性能改善は、視覚的接地の改善の結果ではなく、正規化効果であることを示す。
本稿では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現する簡易な正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-12T21:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。