論文の概要: All You May Need for VQA are Image Captions
- arxiv url: http://arxiv.org/abs/2205.01883v1
- Date: Wed, 4 May 2022 04:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 01:27:49.762951
- Title: All You May Need for VQA are Image Captions
- Title(参考訳): VQAに必要なのは、画像キャプションだけ
- Authors: Soravit Changpinyo, Doron Kukliansky, Idan Szpektor, Xi Chen, Nan
Ding, Radu Soricut
- Abstract要約: ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
- 参考スコア(独自算出の注目度): 24.634567673906666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) has benefited from increasingly sophisticated
models, but has not enjoyed the same level of engagement in terms of data
creation. In this paper, we propose a method that automatically derives VQA
examples at volume, by leveraging the abundance of existing image-caption
annotations combined with neural models for textual question generation. We
show that the resulting data is of high-quality. VQA models trained on our data
improve state-of-the-art zero-shot accuracy by double digits and achieve a
level of robustness that lacks in the same model trained on human-annotated VQA
data.
- Abstract(参考訳): VQA(Visual Question Answering)は、ますます洗練されたモデルの恩恵を受けているが、データ生成に関しても同じレベルのエンゲージメントを享受していない。
本稿では,既存の画像キャプションアノテーションとニューラルモデルを組み合わせてテキスト質問生成を行うことにより,VQAサンプルをボリュームで自動生成する手法を提案する。
得られたデータは高品質であることを示す。
我々のデータに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善し、人間の注釈付きVQAデータでトレーニングされた同じモデルに欠けているレベルの堅牢性を達成する。
関連論文リスト
- Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。