論文の概要: Seeing is Knowing! Fact-based Visual Question Answering using Knowledge
Graph Embeddings
- arxiv url: http://arxiv.org/abs/2012.15484v1
- Date: Thu, 31 Dec 2020 07:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 02:56:08.360365
- Title: Seeing is Knowing! Fact-based Visual Question Answering using Knowledge
Graph Embeddings
- Title(参考訳): 見ればわかる!
知識グラフ埋め込みを用いたファクトベースビジュアル質問応答
- Authors: Kiran Ramnath and Mark Hasegawa-Johnson
- Abstract要約: 視覚的質問回答(FVQA)のための不完全なKGを推論できる新しいQAアーキテクチャを開発しています。
我々は、FVQAの下流タスクにKG完了に広く使われているテクニックであるKG Embeddingsを使用する。
また、「Image-as-Knowledge」と呼ばれる新しい画像表現技術を採用し、シンプルなワンステップコアテンションメカニズムとともにこの機能を実現しました。
- 参考スコア(独自算出の注目度): 41.991966739676684
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fact-based Visual Question Answering (FVQA), a challenging variant of VQA,
requires a QA-system to include facts from a diverse knowledge graph (KG) in
its reasoning process to produce an answer. Large KGs, especially common-sense
KGs, are known to be incomplete, i.e. not all non-existent facts are always
incorrect. Therefore, being able to reason over incomplete KGs for QA is a
critical requirement in real-world applications that has not been addressed
extensively in the literature. We develop a novel QA architecture that allows
us to reason over incomplete KGs, something current FVQA state-of-the-art
(SOTA) approaches lack.We use KG Embeddings, a technique widely used for KG
completion, for the downstream task of FVQA. We also employ a new image
representation technique we call "Image-as-Knowledge" to enable this
capability, alongside a simple one-step co-Attention mechanism to attend to
text and image during QA. Our FVQA architecture is faster during inference
time, being O(m), as opposed to existing FVQA SOTA methods which are O(N logN),
where m is number of vertices, N is number of edges (which is O(m^2)). We
observe that our architecture performs comparably in the standard
answer-retrieval baseline with existing methods; while for missing-edge
reasoning, our KG representation outperforms the SOTA representation by 25%,
and image representation outperforms the SOTA representation by 2.6%.
- Abstract(参考訳): VQAの難解な変種であるFact-based Visual Question Answering (FVQA)は、QAシステムに様々な知識グラフ(KG)の事実を推論プロセスに含め、答えを生成する必要がある。
大きなKG、特に常識的なKGは不完全であることが知られている。
存在しない事実はいつも間違っているわけではない。
したがって、QAに対して不完全なKGを推論できることは、文献で広く扱われていない実世界のアプリケーションにおいて重要な要件である。
我々は、FVQAの下流タスクに広く使われているKG Embeddings(KG Embeddings)を用いて、現在のFVQAステート・オブ・ザ・アーティファクト(SOTA)アプローチの欠如である不完全なKGを推論できる新しいQAアーキテクチャを開発した。
また,この機能を実現するために,新たな画像表現手法「Image-as-Knowledge」を,QA中にテキストや画像に出席するための単純な1ステップのコアテンション機構と併用する。
我々のFVQAアーキテクチャは、O(N logN)である既存のFVQA SOTAメソッドとは対照的に、推論時間においてより高速で、mは頂点の数、Nはエッジの数(O(m^2))である。
我々のアーキテクチャは,既存の手法と標準的な解検索ベースラインで相容れない性能を保ちながら,我々のKG表現はSOTA表現を25%上回り,画像表現はSOTA表現を2.6%上回ります。
関連論文リスト
- GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering [19.491275771319074]
Commonsense Question-Awering (QA)メソッドは、事前学習された言語モデル(LM)のパワーと知識グラフ(KG)が提供する推論を組み合わせる。
典型的なアプローチでは、QAペアに関連するノードをKGから収集してワーキンググラフを作り、続いてグラフニューラルネットワーク(GNN)を用いて推論する。
We propose GrapeQA with two simple improvements on the WG: (i) Prominent Entities for Graph Augmentation identifieds relevant text chunks from the QA pair and augments the WG with corresponding latent representations from the LM, and (ii) Context-Aware Node Prunings the QA less relevant to the QA。
論文 参考訳(メタデータ) (2023-03-22T05:35:29Z) - A Universal Question-Answering Platform for Knowledge Graphs [7.2676028986202]
我々は,各ターゲットKGに合わせて調整する必要がない汎用QAシステムであるKGQAnを提案する。
KGQAnは、回答の質や処理時間の点で、最先端の大幅なマージンによって容易にデプロイされ、性能が向上する。
論文 参考訳(メタデータ) (2023-03-01T15:35:32Z) - Reasoning over Multi-view Knowledge Graphs [59.99051368907095]
ROMAは、マルチビューKG上で論理クエリに応答する新しいフレームワークである。
大規模(数百万の事実など)のKGや粒度の細かいビューまでスケールする。
トレーニング中に観測されていない構造やKGビューのクエリを一般化する。
論文 参考訳(メタデータ) (2022-09-27T21:32:20Z) - Explainable Sparse Knowledge Graph Completion via High-order Graph
Reasoning Network [111.67744771462873]
本稿では,スパース知識グラフ(KG)のための新しい説明可能なモデルを提案する。
高次推論をグラフ畳み込みネットワーク、すなわちHoGRNに結合する。
情報不足を緩和する一般化能力を向上させるだけでなく、解釈可能性も向上する。
論文 参考訳(メタデータ) (2022-07-14T10:16:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Improving Embedded Knowledge Graph Multi-hop Question Answering by
introducing Relational Chain Reasoning [8.05076085499457]
知識ベース質問回答(KBQA)は、トピックエンティティと回答の間の推論を識別することで、知識ベース(KB)からのユーザ要求に答える。
KBQA の複素分岐タスクとして、マルチホップ KGQA は構造化された KG に保存された多重ホップ関係鎖の推論を必要とする。
論文 参考訳(メタデータ) (2021-10-25T06:53:02Z) - QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question
Answering [122.84513233992422]
学習済み言語モデル(LM)と知識グラフ(KG)の知識を用いて質問に答える問題に対処する新しいモデルであるQA-GNNを提案する。
既存のLMとLM+KGモデルに対する改善と、解釈可能で構造化された推論を行う能力を示しています。
論文 参考訳(メタデータ) (2021-04-13T17:32:51Z) - Toward Subgraph-Guided Knowledge Graph Question Generation with Graph
Neural Networks [53.58077686470096]
知識グラフ(KG)質問生成(QG)は,KGから自然言語質問を生成することを目的とする。
本研究は,KGサブグラフから質問を生成し,回答をターゲットとする,より現実的な環境に焦点を当てる。
論文 参考訳(メタデータ) (2020-04-13T15:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。