論文の概要: Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding
- arxiv url: http://arxiv.org/abs/2012.07192v1
- Date: Mon, 14 Dec 2020 00:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:33:20.067190
- Title: Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding
- Title(参考訳): 知識制御型視覚質問応答 : 深層表現埋め込みへの挑戦
- Authors: Qingxing Cao and Bailin Li and Xiaodan Liang and Keze Wang and Liang
Lin
- Abstract要約: VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
- 参考スコア(独自算出の注目度): 140.5911760063681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though beneficial for encouraging the Visual Question Answering (VQA) models
to discover the underlying knowledge by exploiting the input-output correlation
beyond image and text contexts, the existing knowledge VQA datasets are mostly
annotated in a crowdsource way, e.g., collecting questions and external reasons
from different users via the internet. In addition to the challenge of
knowledge reasoning, how to deal with the annotator bias also remains unsolved,
which often leads to superficial over-fitted correlations between questions and
answers. To address this issue, we propose a novel dataset named
Knowledge-Routed Visual Question Reasoning for VQA model evaluation.
Considering that a desirable VQA model should correctly perceive the image
context, understand the question, and incorporate its learned knowledge, our
proposed dataset aims to cutoff the shortcut learning exploited by the current
deep embedding models and push the research boundary of the knowledge-based
visual question reasoning. Specifically, we generate the question-answer pair
based on both the Visual Genome scene graph and an external knowledge base with
controlled programs to disentangle the knowledge from other biases. The
programs can select one or two triplets from the scene graph or knowledge base
to push multi-step reasoning, avoid answer ambiguity, and balanced the answer
distribution. In contrast to the existing VQA datasets, we further imply the
following two major constraints on the programs to incorporate knowledge
reasoning: i) multiple knowledge triplets can be related to the question, but
only one knowledge relates to the image object. This can enforce the VQA model
to correctly perceive the image instead of guessing the knowledge based on the
given question solely; ii) all questions are based on different knowledge, but
the candidate answers are the same for both the training and test sets.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは、画像やテキストコンテキストを超えた入力出力相関を利用して、基礎となる知識を発見するのに役立つが、既存の知識VQAデータセットは、主にクラウドソースの方法で注釈付けされている。
知識推論の課題に加えて、アノテーションのバイアスに対処する方法も未解決のままであり、質問と回答の間の表面的過剰な相関につながることが多い。
本稿では,VQAモデル評価のための知識制御型視覚質問推論という新しいデータセットを提案する。
望ましいVQAモデルは、イメージコンテキストを正しく認識し、質問を理解し、学習知識を組み込むべきであることを考慮し、提案データセットは、現在の深層埋め込みモデルが活用するショートカット学習をカットし、知識に基づく視覚的質問推論の研究境界を押し上げることを目的としている。
具体的には,視覚ゲノムシーングラフと外部知識ベースの両方に基づいて質問応答ペアを生成し,その知識を他のバイアスから切り離すための制御プログラムを作成する。
プログラムは、シーングラフまたは知識ベースから1つまたは2つの三つ組を選択して、多段階推論をプッシュし、回答のあいまいさを回避し、回答分布のバランスをとることができる。
既存のvqaデータセットとは対照的に、知識推論を組み込むプログラムには、次の2つの大きな制約があることを示す。
これは、与えられた質問のみに基づいて知識を推測する代わりに、VQAモデルを正しく知覚するように強制することができる;i) すべての質問は異なる知識に基づいているが、候補の答えはトレーニングとテストセットの両方で同じである。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Understanding Knowledge Gaps in Visual Question Answering: Implications
for Gap Identification and Testing [20.117014315684287]
我々は、知識ギャップ(KG)の分類を用いて、質問を1つまたは複数のタイプのKGでタグ付けする。
次に,各KGに対する質問の分布のスキューについて検討する。
これらの新しい質問は、既存のVQAデータセットに追加することで、質問の多様性を高め、スキューを減らすことができる。
論文 参考訳(メタデータ) (2020-04-08T00:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。