論文の概要: VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2205.11501v1
- Date: Mon, 23 May 2022 17:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:23:24.109163
- Title: VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question
Answering
- Title(参考訳): VQA-GNN:ビジュアル質問応答のためのマルチモーダル意味グラフによる推論
- Authors: Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec
- Abstract要約: 本稿では,映像レベルの情報と概念的知識を統一し,シーンの協調推論を行う新しい視覚的質問応答手法であるVQA-GNNを提案する。
VCRタスクの評価では、従来のシーングラフベースのTrans-VLモデルよりも4%以上優れており、Trans-VLを融合したモデルでは、さらに2%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 84.34040957802064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual understanding requires seamless integration between recognition and
reasoning: beyond image-level recognition (e.g., detecting objects), systems
must perform concept-level reasoning (e.g., inferring the context of objects
and intents of people). However, existing methods only model the image-level
features, and do not ground them and reason with background concepts such as
knowledge graphs (KGs). In this work, we propose a novel visual question
answering method, VQA-GNN, which unifies the image-level information and
conceptual knowledge to perform joint reasoning of the scene. Specifically,
given a question-image pair, we build a scene graph from the image, retrieve a
relevant linguistic subgraph from ConceptNet and visual subgraph from
VisualGenome, and unify these three graphs and the question into one joint
graph, multimodal semantic graph. Our VQA-GNN then learns to aggregate messages
and reason across different modalities captured by the multimodal semantic
graph. In the evaluation on the VCR task, our method outperforms the previous
scene graph-based Trans-VL models by over 4%, and VQA-GNN-Large, our model that
fuses a Trans-VL further improves the state of the art by 2%, attaining the top
of the VCR leaderboard at the time of submission. This result suggests the
efficacy of our model in performing conceptual reasoning beyond image-level
recognition for visual understanding. Finally, we demonstrate that our model is
the first work to provide interpretability across visual and textual knowledge
domains for the VQA task.
- Abstract(参考訳): 視覚的理解は認識と推論のシームレスな統合を必要とする:画像レベルの認識(オブジェクトの検出など)を超えて、システムは概念レベルの推論(オブジェクトのコンテキストと人の意図を推測するなど)を行う必要がある。
しかし,既存の手法は画像レベルの特徴のみをモデル化し,知識グラフ(KGs)のような背景概念を基礎としない。
本研究では,映像レベルの情報と概念知識を統一し,シーンの連立推論を行う新しい視覚的質問応答手法であるVQA-GNNを提案する。
具体的には,画像からシーングラフを構築し,概念ネットから関連する言語サブグラフとVisualGenomeから視覚サブグラフを取得し,これらの3つのグラフと質問を1つのジョイントグラフ,マルチモーダルセマンティックグラフに統合する。
我々のVQA-GNNは、マルチモーダルセマンティックグラフによってキャプチャされた様々なモダリティにまたがるメッセージと推論を学習する。
VCRタスクの評価では、従来のシーングラフベースのTrans-VLモデルを4%以上上回り、VQA-GNN-Largeでは、Trans-VLを融合したモデルが2%向上し、VCRリーダーボードの上位に到達した。
この結果は,視覚理解のための画像レベルの認識を超えた概念的推論を行う上でのモデルの有効性を示唆する。
最後に、VQAタスクのための視覚的およびテキスト的知識ドメイン間の解釈可能性を提供する最初の試みであることを示す。
関連論文リスト
- Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2021-12-13T18:45:42Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Dynamic Semantic Graph Construction and Reasoning for Explainable
Multi-hop Science Question Answering [50.546622625151926]
マルチホップQAのための説明可能性を得ながら,より有効な事実を活用できる新しいフレームワークを提案する。
a) tt AMR-SG,(a) tt AMR-SG,(a) tt AMR-SG,(a) tt AMR-SG,(c) グラフ畳み込みネットワーク(GCN)を利用した事実レベルの関係モデリング,(c) 推論過程の導出を行う。
論文 参考訳(メタデータ) (2021-05-25T09:14:55Z) - QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question
Answering [122.84513233992422]
学習済み言語モデル(LM)と知識グラフ(KG)の知識を用いて質問に答える問題に対処する新しいモデルであるQA-GNNを提案する。
既存のLMとLM+KGモデルに対する改善と、解釈可能で構造化された推論を行う能力を示しています。
論文 参考訳(メタデータ) (2021-04-13T17:32:51Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。