論文の概要: VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2205.11501v2
- Date: Fri, 15 Sep 2023 08:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 19:17:53.288134
- Title: VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering
- Title(参考訳): VQA-GNN:ビジュアル質問応答のためのグラフニューラルネットワークによるマルチモーダル知識の推論
- Authors: Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec
- Abstract要約: 本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
- 参考スコア(独自算出の注目度): 79.22069768972207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) requires systems to perform concept-level
reasoning by unifying unstructured (e.g., the context in question and answer;
"QA context") and structured (e.g., knowledge graph for the QA context and
scene; "concept graph") multimodal knowledge. Existing works typically combine
a scene graph and a concept graph of the scene by connecting corresponding
visual nodes and concept nodes, then incorporate the QA context representation
to perform question answering. However, these methods only perform a
unidirectional fusion from unstructured knowledge to structured knowledge,
limiting their potential to capture joint reasoning over the heterogeneous
modalities of knowledge. To perform more expressive reasoning, we propose
VQA-GNN, a new VQA model that performs bidirectional fusion between
unstructured and structured multimodal knowledge to obtain unified knowledge
representations. Specifically, we inter-connect the scene graph and the concept
graph through a super node that represents the QA context, and introduce a new
multimodal GNN technique to perform inter-modal message passing for reasoning
that mitigates representational gaps between modalities. On two challenging VQA
tasks (VCR and GQA), our method outperforms strong baseline VQA methods by 3.2%
on VCR (Q-AR) and 4.6% on GQA, suggesting its strength in performing
concept-level reasoning. Ablation studies further demonstrate the efficacy of
the bidirectional fusion and multimodal GNN method in unifying unstructured and
structured multimodal knowledge.
- Abstract(参考訳): 視覚的質問応答(VQA)は、未構造化(例えば、質問と回答のコンテキスト)と構造化(例えば、QAコンテキストとシーンの知識グラフ、概念グラフ)を統一することで概念レベルの推論を行うシステムを必要とする。
既存の作業は通常、シーングラフとシーンの概念グラフを組み合わせて、対応する視覚ノードと概念ノードを接続し、QAコンテキスト表現を組み込んで質問応答を行う。
しかし、これらの手法は、非構造化知識から構造化知識への一方向的融合のみを実行し、知識の異質な様相よりも共同推論を捉える可能性を制限する。
より表現力のある推論を行うために,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得るVQA-GNNを提案する。
具体的には、シーングラフと概念グラフをQAコンテキストを表すスーパーノードを介して相互接続し、モーダル間の表現ギャップを緩和する推論のためにモーダル間メッセージパッシングを行うための新しいマルチモーダルGNN技術を導入する。
課題2つのVQAタスク(VCRとGQA)において,本手法はVCR(Q-AR)が3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
アブレーション研究は、非構造的および構造的マルチモーダル知識の統合における双方向核融合およびマルチモーダルGNN法の有効性をさらに示す。
関連論文リスト
- Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2021-12-13T18:45:42Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Dynamic Semantic Graph Construction and Reasoning for Explainable
Multi-hop Science Question Answering [50.546622625151926]
マルチホップQAのための説明可能性を得ながら,より有効な事実を活用できる新しいフレームワークを提案する。
a) tt AMR-SG,(a) tt AMR-SG,(a) tt AMR-SG,(a) tt AMR-SG,(c) グラフ畳み込みネットワーク(GCN)を利用した事実レベルの関係モデリング,(c) 推論過程の導出を行う。
論文 参考訳(メタデータ) (2021-05-25T09:14:55Z) - QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question
Answering [122.84513233992422]
学習済み言語モデル(LM)と知識グラフ(KG)の知識を用いて質問に答える問題に対処する新しいモデルであるQA-GNNを提案する。
既存のLMとLM+KGモデルに対する改善と、解釈可能で構造化された推論を行う能力を示しています。
論文 参考訳(メタデータ) (2021-04-13T17:32:51Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。