論文の概要: Generative Visual Question Answering
- arxiv url: http://arxiv.org/abs/2307.10405v1
- Date: Tue, 18 Jul 2023 05:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 15:48:21.731275
- Title: Generative Visual Question Answering
- Title(参考訳): 生成的視覚的質問応答
- Authors: Ethan Shen, Scotty Singh, Bhavesh Kumar
- Abstract要約: 本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal tasks involving vision and language in deep learning continue to
rise in popularity and are leading to the development of newer models that can
generalize beyond the extent of their training data. The current models lack
temporal generalization which enables models to adapt to changes in future
data. This paper discusses a viable approach to creating an advanced Visual
Question Answering (VQA) model which can produce successful results on temporal
generalization. We propose a new data set, GenVQA, utilizing images and
captions from the VQAv2 and MS-COCO dataset to generate new images through
stable diffusion. This augmented dataset is then used to test a combination of
seven baseline and cutting edge VQA models. Performance evaluation focuses on
questions mirroring the original VQAv2 dataset, with the answers having been
adjusted to the new images. This paper's purpose is to investigate the
robustness of several successful VQA models to assess their performance on
future data distributions. Model architectures are analyzed to identify common
stylistic choices that improve generalization under temporal distribution
shifts. This research highlights the importance of creating a large-scale
future shifted dataset. This data can enhance the robustness of VQA models,
allowing their future peers to have improved ability to adapt to temporal
distribution shifts.
- Abstract(参考訳): ディープラーニングにおける視覚と言語を含むマルチモーダルタスクの人気は高まり続けており、トレーニングデータの範囲を超えて一般化できる新しいモデルの開発に繋がっている。
現在のモデルは、モデルが将来のデータの変更に適応できる時間的一般化を欠いている。
本稿では,時間的一般化に成功できる先進的視覚質問応答モデル(vqa)を作成するための有効なアプローチについて述べる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
このデータセットを使用して、7つのベースラインと最先端VQAモデルの組み合わせをテストする。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
本研究の目的は,VQAモデルの有効性を検証し,将来的なデータ配信の性能を評価することである。
モデルアーキテクチャは、時間分布シフトの下で一般化を改善する共通のスタイル選択を特定するために分析される。
この研究は、大規模な未来シフトデータセットを作成することの重要性を強調している。
このデータはVQAモデルの堅牢性を高め、将来のピアが時間分布シフトに適応する能力を向上させることができる。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z) - X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering [49.36818290978525]
既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。
本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
論文 参考訳(メタデータ) (2021-07-24T10:17:48Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA
Models [45.777326168922635]
本稿では,新たな大規模VQAベンチマークであるAdversarial VQAを紹介する。
非熟練アノテータは比較的容易にSOTA VQAモデルに攻撃できることがわかった。
大規模な事前訓練モデルと敵のトレーニング方法はどちらも、標準的なVQA v2データセットで達成できるものよりもはるかに低いパフォーマンスしか達成できない。
論文 参考訳(メタデータ) (2021-06-01T05:54:41Z) - Continual Learning for Blind Image Quality Assessment [80.55119990128419]
ブラインド画像品質評価(BIQA)モデルは、サブポピュレーションシフトに継続的に適応できない。
最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。
モデルがIQAデータセットのストリームから継続的に学習するBIQAの継続的学習を策定する。
論文 参考訳(メタデータ) (2021-02-19T03:07:01Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。