論文の概要: Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for
Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2203.02985v1
- Date: Sun, 6 Mar 2022 15:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 06:10:34.031790
- Title: Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for
Knowledge-based Visual Question Answering
- Title(参考訳): 知識に基づく視覚質問応答のための動的キー値メモリ強化多段階グラフ推論
- Authors: Mingxiao Li, Marie-Francine Moens
- Abstract要約: 知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。
動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。
我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 18.926582410644375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-based visual question answering (VQA) is a vision-language task
that requires an agent to correctly answer image-related questions using
knowledge that is not presented in the given image. It is not only a more
challenging task than regular VQA but also a vital step towards building a
general VQA system. Most existing knowledge-based VQA systems process knowledge
and image information similarly and ignore the fact that the knowledge base
(KB) contains complete information about a triplet, while the extracted image
information might be incomplete as the relations between two objects are
missing or wrongly detected. In this paper, we propose a novel model named
dynamic knowledge memory enhanced multi-step graph reasoning (DMMGR), which
performs explicit and implicit reasoning over a key-value knowledge memory
module and a spatial-aware image graph, respectively. Specifically, the memory
module learns a dynamic knowledge representation and generates a
knowledge-aware question representation at each reasoning step. Then, this
representation is used to guide a graph attention operator over the
spatial-aware image graph. Our model achieves new state-of-the-art accuracy on
the KRVQR and FVQA datasets. We also conduct ablation experiments to prove the
effectiveness of each component of the proposed model.
- Abstract(参考訳): 知識に基づく視覚的質問応答(英語: Knowledge-based visual question answering, VQA)とは、エージェントが与えられた画像に表示されていない知識を用いて、画像関連の質問に正しく答えることを要求する視覚言語タスクである。
通常のVQAよりも難しいタスクであるだけでなく、一般的なVQAシステムを構築するための重要なステップでもある。
既存の知識ベースVQAシステムのほとんどは、知識と画像情報を同様に処理し、知識ベース(KB)が三重項に関する完全な情報を含んでいるという事実を無視する一方、抽出された画像情報は、2つのオブジェクト間の関係が欠落または誤検出されているため不完全である可能性がある。
本稿では,動的知識メモリ拡張多段階グラフ推論(DMMGR)と呼ばれる新しいモデルを提案する。
具体的には、メモリモジュールが動的知識表現を学習し、各推論ステップで知識認識質問表現を生成する。
そして、この表現を用いて、空間認識画像グラフ上でグラフ注意演算子を誘導する。
我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
また,提案モデルの各成分の有効性を証明するため,アブレーション実験を行った。
関連論文リスト
- Question-guided Knowledge Graph Re-scoring and Injection for Knowledge Graph Question Answering [27.414670144354453]
KGQAは知識グラフに格納された構造化情報を活用することで自然言語の質問に答える。
本稿では,Q-KGR(Q-Guided Knowledge Graph Re-scoring method)を提案する。
また,大規模言語モデルに再認識された知識グラフを注入するパラメータ効率の高い手法であるKnowformerを導入し,事実推論を行う能力を高める。
論文 参考訳(メタデータ) (2024-10-02T10:27:07Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。