論文の概要: IQ-VQA: Intelligent Visual Question Answering
- arxiv url: http://arxiv.org/abs/2007.04422v1
- Date: Wed, 8 Jul 2020 20:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 09:52:09.361453
- Title: IQ-VQA: Intelligent Visual Question Answering
- Title(参考訳): iq-vqa: インテリジェントな視覚的質問応答
- Authors: Vatsal Goel, Mohit Chandak, Ashish Anand and Prithwijit Guha
- Abstract要約: ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
- 参考スコア(独自算出の注目度): 3.09911862091928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though there has been tremendous progress in the field of Visual
Question Answering, models today still tend to be inconsistent and brittle. To
this end, we propose a model-independent cyclic framework which increases
consistency and robustness of any VQA architecture. We train our models to
answer the original question, generate an implication based on the answer and
then also learn to answer the generated implication correctly. As a part of the
cyclic framework, we propose a novel implication generator which can generate
implied questions from any question-answer pair. As a baseline for future works
on consistency, we provide a new human annotated VQA-Implications dataset. The
dataset consists of ~30k questions containing implications of 3 types - Logical
Equivalence, Necessary Condition and Mutual Exclusion - made from the VQA v2.0
validation dataset. We show that our framework improves consistency of VQA
models by ~15% on the rule-based dataset, ~7% on VQA-Implications dataset and
robustness by ~2%, without degrading their performance. In addition, we also
quantitatively show improvement in attention maps which highlights better
multi-modal understanding of vision and language.
- Abstract(参考訳): 視覚的な質問に対する回答の分野には大きな進歩があったが、今日のモデルには一貫性がなく、不安定な傾向がある。
そこで本研究では,任意のVQAアーキテクチャの一貫性と堅牢性を高めるモデル独立巡回フレームワークを提案する。
モデルに元の質問に答えるようにトレーニングし、回答に基づいて含意を生成し、生成した含意に正しく答えることを学びます。
循環的枠組みの一部として,任意の問答対から示唆された質問を生成できる新しい含意生成器を提案する。
一貫性に関する今後の研究のベースラインとして、新しい人間の注釈付きVQA-Implicationsデータセットを提供する。
データセットは、VQA v2.0バリデーションデータセットから作成された3つのタイプの含意(論理的等価性、必要条件、相互排他)を含む約30万の質問で構成されている。
VQAモデルの一貫性をルールベースデータセットで約15%向上し、VQA-Implicationsデータセットで約7%向上し、パフォーマンスを劣化させることなくロバストネスを約2%向上することを示す。
さらに,視覚と言語に対するマルチモーダル理解の向上を強調したアテンションマップの改良も定量的に示す。
関連論文リスト
- Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - Relation-Guided Pre-Training for Open-Domain Question Answering [67.86958978322188]
複雑なオープンドメイン問題を解決するためのRGPT-QA(Relation-Guided Pre-Training)フレームワークを提案する。
RGPT-QAは, 自然質問, TriviaQA, WebQuestionsにおいて, Exact Matchの精度が2.2%, 2.4%, 6.3%向上したことを示す。
論文 参考訳(メタデータ) (2021-09-21T17:59:31Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。