論文の概要: Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing
- arxiv url: http://arxiv.org/abs/2004.03755v2
- Date: Wed, 3 Jun 2020 21:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 07:51:22.628941
- Title: Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing
- Title(参考訳): 視覚的質問応答における知識ギャップの理解:ギャップ識別とテストへの示唆
- Authors: Goonmeet Bajaj, Bortik Bandyopadhyay, Daniel Schmidt, Pranav
Maneriker, Christopher Myers, Srinivasan Parthasarathy
- Abstract要約: 我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
- 参考スコア(独自算出の注目度): 20.117014315684287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) systems are tasked with answering natural
language questions corresponding to a presented image. Traditional VQA datasets
typically contain questions related to the spatial information of objects,
object attributes, or general scene questions. Recently, researchers have
recognized the need to improve the balance of such datasets to reduce the
system's dependency on memorized linguistic features and statistical biases,
while aiming for enhanced visual understanding. However, it is unclear whether
any latent patterns exist to quantify and explain these failures. As an initial
step towards better quantifying our understanding of the performance of VQA
models, we use a taxonomy of Knowledge Gaps (KGs) to tag questions with one or
more types of KGs. Each Knowledge Gap (KG) describes the reasoning abilities
needed to arrive at a resolution. After identifying KGs for each question, we
examine the skew in the distribution of questions for each KG. We then
introduce a targeted question generation model to reduce this skew, which
allows us to generate new types of questions for an image. These new questions
can be added to existing VQA datasets to increase the diversity of questions
and reduce the skew.
- Abstract(参考訳): 視覚質問応答システム(VQA)は、提示された画像に対応する自然言語質問に応答する。
伝統的なVQAデータセットは通常、オブジェクトの空間情報、オブジェクト属性、一般的なシーン質問に関連する質問を含む。
近年,これらのデータセットのバランスを改善し,記憶された言語特徴や統計的バイアスへのシステムの依存を減らすことの必要性を認識している。
しかし、これらの失敗を定量化し説明するために潜伏パターンが存在するかどうかは不明である。
VQAモデルの性能に関する理解を深めるための最初のステップとして、知識ギャップ(KG)の分類を用いて、質問を1つ以上のタイプのKGでタグ付けする。
各知識ギャップ(KG)は、解像度に到達するために必要な推論能力を記述する。
質問ごとのKGを同定した後、各KGに対する質問の分布のスキューについて検討する。
次に、このスキューを減らすために、ターゲットとした質問生成モデルを導入し、画像の新しいタイプの質問を生成する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
関連論文リスト
- Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。
我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文 参考訳(メタデータ) (2024-06-27T02:19:38Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。