論文の概要: From Shallow to Deep: Compositional Reasoning over Graphs for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2206.12533v1
- Date: Sat, 25 Jun 2022 02:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 08:26:29.151309
- Title: From Shallow to Deep: Compositional Reasoning over Graphs for Visual
Question Answering
- Title(参考訳): 浅層から深層へ:ビジュアル質問応答のためのグラフ上の合成推論
- Authors: Zihao Zhu
- Abstract要約: イメージと外部知識に作曲的推論を必要とする深い問いに答えることを学ぶことが不可欠である。
階層型グラフニューラルモジュールネットワーク(HGNMN)を提案する。
我々のモデルは、グラフ上の特定の機能を実行するよく設計されたニューラルネットワークモジュールで構成されている。
- 参考スコア(独自算出の注目度): 3.7094119304085584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to achieve a general visual question answering (VQA) system, it is
essential to learn to answer deeper questions that require compositional
reasoning on the image and external knowledge. Meanwhile, the reasoning process
should be explicit and explainable to understand the working mechanism of the
model. It is effortless for human but challenging for machines. In this paper,
we propose a Hierarchical Graph Neural Module Network (HGNMN) that reasons over
multi-layer graphs with neural modules to address the above issues.
Specifically, we first encode the image by multi-layer graphs from the visual,
semantic and commonsense views since the clues that support the answer may
exist in different modalities. Our model consists of several well-designed
neural modules that perform specific functions over graphs, which can be used
to conduct multi-step reasoning within and between different graphs. Compared
to existing modular networks, we extend visual reasoning from one graph to more
graphs. We can explicitly trace the reasoning process according to module
weights and graph attentions. Experiments show that our model not only achieves
state-of-the-art performance on the CRIC dataset but also obtains explicit and
explainable reasoning procedures.
- Abstract(参考訳): 一般的な視覚的質問応答(VQA)システムを実現するためには,画像や外部知識に対する構成的推論を必要とする深い疑問に答えることが不可欠である。
一方、推論プロセスは明確かつ説明可能で、モデルの動作メカニズムを理解する必要があります。
人間には耐え難いが、機械には挑戦する。
本稿では,階層型グラフニューラルモジュールネットワーク(hgnmn)を提案する。
具体的には,視覚的,意味的,常識的な視点から多層グラフで画像をエンコードする。
私たちのモデルは、グラフ上で特定の機能を実行する、よく設計された複数の神経モジュールで構成されています。
既存のモジュールネットワークと比較して、あるグラフからより多くのグラフへの視覚的推論を拡張する。
モジュールの重みとグラフの注意に応じて推論プロセスを明示的に追跡することができる。
実験の結果,本モデルはCRICデータセット上での最先端性能だけでなく,明示的で説明可能な推論手順も得られることがわかった。
関連論文リスト
- InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Neural Graph Reasoning: Complex Logical Query Answering Meets Graph
Databases [63.96793270418793]
複雑な論理クエリ応答(CLQA)は、グラフ機械学習の最近登場したタスクである。
ニューラルグラフデータベース(NGDB)の概念を紹介する。
NGDBはNeural Graph StorageとNeural Graph Engineで構成されている。
論文 参考訳(メタデータ) (2023-03-26T04:03:37Z) - Probing Graph Representations [77.7361299039905]
グラフ表現でキャプチャされた意味のある情報の量を定量化するために、探索フレームワークを使用します。
本研究は, グラフモデルにおける帰納的バイアスを理解するための探索の可能性を示すものである。
グラフベースモデルを評価する上で有用な診断ツールとして,探索を提唱する。
論文 参考訳(メタデータ) (2023-03-07T14:58:18Z) - PGX: A Multi-level GNN Explanation Framework Based on Separate Knowledge
Distillation Processes [0.2005299372367689]
本稿では,GNNがグラフデータにおける複数のコンポーネントのマルチモーダル学習プロセスであることを示す,多段階GNN説明フレームワークを提案する。
元の問題の複雑さは、階層構造として表される複数の部分部分に分解することで緩和される。
このフレームワークはユーザの好みに基づいて異なる結果を生成することができるため、パーソナライズされた説明も目的としている。
論文 参考訳(メタデータ) (2022-08-05T10:14:48Z) - Neural-Symbolic Models for Logical Queries on Knowledge Graphs [17.290758383645567]
両世界の利点を享受するニューラルシンボリックモデルであるグラフニューラルネットワーククエリ実行器(GNN-QE)を提案する。
GNN-QEは複雑なFOLクエリを、ファジィ集合上の関係投影と論理演算に分解する。
3つのデータセットの実験により、GNN-QEはFOLクエリに応答する以前の最先端モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-05-16T18:39:04Z) - ExplaGraphs: An Explanation Graph Generation Task for Structured
Commonsense Reasoning [65.15423587105472]
スタンス予測のための説明グラフ生成の新しい生成および構造化コモンセンスリゾニングタスク(および関連するデータセット)を紹介します。
具体的には、信念と議論が与えられた場合、モデルは、議論が信念を支持しているかどうかを予測し、予測されたスタンスに対する非自明で完全で曖昧な説明として機能する常識強化グラフを生成する必要がある。
グラフの83%は、様々な構造と推論深度を持つ外部のコモンセンスノードを含んでいる。
論文 参考訳(メタデータ) (2021-04-15T17:51:36Z) - Parameterized Explainer for Graph Neural Network [49.79917262156429]
グラフニューラルネットワーク(GNN)のためのパラメータ化説明器PGExplainerを提案する。
既存の研究と比較すると、PGExplainerはより優れた一般化能力を持ち、インダクティブな設定で容易に利用することができる。
合成データセットと実生活データセットの両方の実験では、グラフ分類の説明に関するAUCの相対的な改善が24.7%まで高い競争性能を示した。
論文 参考訳(メタデータ) (2020-11-09T17:15:03Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。