論文の概要: Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder
- arxiv url: http://arxiv.org/abs/2007.06198v2
- Date: Sat, 18 Jul 2020 13:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:37:00.848464
- Title: Reducing Language Biases in Visual Question Answering with
Visually-Grounded Question Encoder
- Title(参考訳): ビジュアルグラウンド質問エンコーダを用いた視覚質問応答における言語バイアスの低減
- Authors: Gouthaman KV and Anurag Mittal
- Abstract要約: VQAのための新しいモデルに依存しない質問エンコーダVGQE(Visually-Grounded Question)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方のモダリティを等しく利用する。
VGQEが最近の3つのVQAモデルに与える影響を実証し、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 12.56413718364189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that current VQA models are heavily biased on the
language priors in the train set to answer the question, irrespective of the
image. E.g., overwhelmingly answer "what sport is" as "tennis" or "what color
banana" as "yellow." This behavior restricts them from real-world application
scenarios. In this work, we propose a novel model-agnostic question encoder,
Visually-Grounded Question Encoder (VGQE), for VQA that reduces this effect.
VGQE utilizes both visual and language modalities equally while encoding the
question. Hence the question representation itself gets sufficient
visual-grounding, and thus reduces the dependency of the model on the language
priors. We demonstrate the effect of VGQE on three recent VQA models and
achieve state-of-the-art results on the bias-sensitive split of the VQAv2
dataset; VQA-CPv2. Further, unlike the existing bias-reduction techniques, on
the standard VQAv2 benchmark, our approach does not drop the accuracy; instead,
it improves the performance.
- Abstract(参考訳): 近年の研究では、現在のVQAモデルは、画像に関係なく、その疑問に答えるために設定された列車の言語先行に大きく偏っていることが示されている。
例えば、"what sport is"は"tennis"、"what color banana"は"yellow"と圧倒的に答える。
この振る舞いは、現実のアプリケーションシナリオを制限します。
本研究では,この効果を低減したVQAに対して,新しいモデルに依存しない質問エンコーダであるビジュアルグラウンド質問エンコーダ(VGQE)を提案する。
VGQEは、質問をエンコードしながら、視覚と言語の両方を等しく利用する。
したがって、質問表現自体が十分なビジュアルグラウンドを得られるため、言語前のモデルへの依存を減らすことができる。
本稿では,最新の3つのVQAモデルに対するVGQEの効果を実演し,VQAv2データセットのバイアス感度分割に対する最先端の結果を得る。
さらに、標準VQAv2ベンチマークの既存のバイアス低減手法とは異なり、我々の手法は精度を落とさず、代わりに性能を向上する。
関連論文リスト
- Overcoming Language Bias in Remote Sensing Visual Question Answering via
Adversarial Training [22.473676537463607]
VQA(Visual Question Answering)モデルは、一般的に言語バイアスの課題に直面します。
リモートセンシングデータに対するVQAの言語バイアスを低減するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-01T09:32:45Z) - Overcoming Language Priors in Visual Question Answering via
Distinguishing Superficially Similar Instances [17.637150597493463]
本稿では,VQAモデルに対して,仮想的に類似したインスタンスの区別を明示的に促す新しいトレーニングフレームワークを提案する。
我々は、解空間におけるインスタンスとそれに対応するモジュール間の距離を増やすために、提案された区別モジュールを利用する。
実験の結果,VQA-CP v2の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-09-18T10:30:44Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Estimating semantic structure for the VQA answer space [6.49970685896541]
3つの異なるVQAモデルで一貫した改善を可能にするため、我々のアプローチは完全にモデルに依存しないことを示す。
VQAv2-CPデータセットのSOTAレベル性能について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:32:56Z) - Visual Grounding Methods for VQA are Working for the Wrong Reasons! [24.84797949716142]
性能改善は、視覚的接地の改善の結果ではなく、正規化効果であることを示す。
本稿では,外部アノテーションを一切必要とせず,VQA-CPv2上での最先端性能を実現する簡易な正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-12T21:45:23Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。