論文の概要: Self-Supervised VQA: Answering Visual Questions using Images and
Captions
- arxiv url: http://arxiv.org/abs/2012.02356v1
- Date: Fri, 4 Dec 2020 01:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:53:04.687353
- Title: Self-Supervised VQA: Answering Visual Questions using Images and
Captions
- Title(参考訳): 自己監督型VQA:画像とキャプションを用いた視覚的質問への回答
- Authors: Pratyay Banerjee, Tejas Gokhale, Yezhou Yang, Chitta Baral
- Abstract要約: VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
- 参考スコア(独自算出の注目度): 38.05223339919346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methodologies for training VQA models assume the availability of datasets
with human-annotated Image-Question-Answer(I-Q-A) triplets for training. This
has led to a heavy reliance and overfitting on datasets and a lack of
generalization to new types of questions and scenes. Moreover, these datasets
exhibit annotator subjectivity, biases, and errors, along with linguistic
priors, which percolate into VQA models trained on such samples. We study
whether models can be trained without any human-annotated Q-A pairs, but only
with images and associated text captions which are descriptive and less
subjective. We present a method to train models with procedurally generated Q-A
pairs from captions using techniques, such as templates and annotation
frameworks like QASRL. As most VQA models rely on dense and costly object
annotations extracted from object detectors, we propose spatial-pyramid image
patches as a simple but effective alternative to object bounding boxes, and
demonstrate that our method uses fewer human annotations. We benchmark on
VQA-v2, GQA, and on VQA-CP which contains a softer version of label shift. Our
methods surpass prior supervised methods on VQA-CP and are competitive with
methods without object features in fully supervised setting.
- Abstract(参考訳): VQAモデルのトレーニング方法は、トレーニングのために人間の注釈付きイメージクエスト・アンサー(I-Q-A)トリプルでデータセットを利用できると仮定する。
これにより、データセットへの依存度が高くなり、新しいタイプの質問やシーンへの一般化が欠如している。
さらに、これらのデータセットは、アノテータの主観性、偏見、誤り、および言語的先行性を示し、これらのサンプルで訓練されたVQAモデルにパーコレーションする。
人間の注釈付きQ-Aペアを使わずにモデルをトレーニングできるかどうかを,説明的かつ主観的でない画像と関連するテキストキャプションのみを用いて検討する。
本稿では,テンプレートやqasrlなどのアノテーションフレームワークを用いたキャプションから,手続き的に生成されたq-aペアを用いたモデル学習手法を提案する。
多くのVQAモデルは、オブジェクト検出器から抽出された高密度でコストのかかるオブジェクトアノテーションに依存しているため、オブジェクト境界ボックスの単純かつ効果的な代替手段として、空間ピラミド画像パッチを提案する。
ラベルシフトのソフトバージョンを含むVQA-v2,GQA,VQA-CPのベンチマークを行った。
提案手法はvqa-cpの事前教師付きメソッドを上回っており,完全に教師付き設定のオブジェクト特徴のないメソッドと競合する。
関連論文リスト
- Improved Few-Shot Image Classification Through Multiple-Choice Questions [1.4432605069307167]
本稿では,少数のラベル付き例と複数選択質問のみを用いて,画像分類におけるVQA性能を向上させるための簡単な手法を提案する。
本手法は, 純視覚エンコーダとゼロショットVQAベースラインの両方で性能を向上し, 共通ショットタスクにおける印象的な性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T03:09:42Z) - Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。