論文の概要: Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2009.00145v1
- Date: Mon, 31 Aug 2020 23:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:33:58.474398
- Title: Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering
- Title(参考訳): 知識に基づく視覚的質問応答のためのクロスモーダル知識推論
- Authors: Jing Yu, Zihao Zhu, Yujing Wang, Weifeng Zhang, Yue Hu, Jianlong Tan
- Abstract要約: KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
- 参考スコア(独自算出の注目度): 27.042604046441426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KVQA) requires external knowledge
beyond the visible content to answer questions about an image. This ability is
challenging but indispensable to achieve general VQA. One limitation of
existing KVQA solutions is that they jointly embed all kinds of information
without fine-grained selection, which introduces unexpected noises for
reasoning the correct answer. How to capture the question-oriented and
information-complementary evidence remains a key challenge to solve the
problem. Inspired by the human cognition theory, in this paper, we depict an
image by multiple knowledge graphs from the visual, semantic and factual views.
Thereinto, the visual graph and semantic graph are regarded as
image-conditioned instantiation of the factual graph. On top of these new
representations, we re-formulate Knowledge-based Visual Question Answering as a
recurrent reasoning process for obtaining complementary evidence from
multimodal information. To this end, we decompose the model into a series of
memory-based reasoning steps, each performed by a G raph-based R ead, U pdate,
and C ontrol ( GRUC ) module that conducts parallel reasoning over both visual
and semantic information. By stacking the modules multiple times, our model
performs transitive reasoning and obtains question-oriented concept
representations under the constrain of different modalities. Finally, we
perform graph neural networks to infer the global-optimal answer by jointly
considering all the concepts. We achieve a new state-of-the-art performance on
three popular benchmark datasets, including FVQA, Visual7W-KB and OK-VQA, and
demonstrate the effectiveness and interpretability of our model with extensive
experiments.
- Abstract(参考訳): KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
この能力は難しいが、一般的なVQAを達成するには不可欠である。
既存のKVQAソリューションの1つの制限は、細かい選択なしにあらゆる種類の情報を共同で埋め込み、正しい答えを推論するための予期せぬノイズを導入することである。
質問指向と情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
本稿では,人間の認知理論に着想を得て,視覚的,意味的,事実的視点から,複数の知識グラフによるイメージを描く。
そのため、ビジュアルグラフとセマンティックグラフは、事実グラフのイメージ条件付きインスタンス化と見なされる。
これらの新たな表現に加えて,マルチモーダル情報から補完的証拠を得るための再帰的推論プロセスとして,知識に基づく視覚的質問応答を再定式化する。
この目的のために、モデルを一連のメモリベースの推論ステップに分解し、それぞれをg raphベースのr ead、u pdate、c ontrol( gruc )モジュールで実行し、視覚情報と意味情報の両方に対して並列推論を行う。
モジュールを複数回積み重ねることで、推移的推論を行い、異なるモダリティの制約の下で質問指向の概念表現を得る。
最後に、すべての概念を共同で検討することにより、グローバル最適解を推論するためにグラフニューラルネットワークを実行する。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセット上で、新しい最先端性能を実現し、広範囲な実験により、モデルの有効性と解釈性を示す。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for
Knowledge-based Visual Question Answering [18.926582410644375]
知識に基づく視覚的質問応答(VQA)は、エージェントが画像関連の質問に正しく答えることを必要とする視覚言語タスクである。
動的知識メモリ強化多段階グラフ推論(DMMGR)という新しいモデルを提案する。
我々のモデルはKRVQRとFVQAデータセット上で新しい最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-03-06T15:19:39Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual
Question Answering [26.21870452615222]
FVQAは、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
問題指向で情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
与えられた問題に最も関係のある異なる層から証拠を捉えるために,モダリティを考慮した異種グラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-16T11:03:37Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。