論文の概要: Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2112.07270v1
- Date: Tue, 14 Dec 2021 10:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:04:03.101703
- Title: Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering
- Title(参考訳): 視覚的質問応答における特徴融合のためのバイラテラルクロスモーダルグラフマッチング注意
- Authors: JianJian Cao and Xiameng Qin and Sanyuan Zhao and Jianbing Shen
- Abstract要約: 本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 71.6781118080461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering semantically-complicated questions according to an image is
challenging in Visual Question Answering (VQA) task. Although the image can be
well represented by deep learning, the question is always simply embedded and
cannot well indicate its meaning. Besides, the visual and textual features have
a gap for different modalities, it is difficult to align and utilize the
cross-modality information. In this paper, we focus on these two problems and
propose a Graph Matching Attention (GMA) network. Firstly, it not only builds
graph for the image, but also constructs graph for the question in terms of
both syntactic and embedding information. Next, we explore the intra-modality
relationships by a dual-stage graph encoder and then present a bilateral
cross-modality graph matching attention to infer the relationships between the
image and the question. The updated cross-modality features are then sent into
the answer prediction module for final answer prediction. Experiments
demonstrate that our network achieves state-of-the-art performance on the GQA
dataset and the VQA 2.0 dataset. The ablation studies verify the effectiveness
of each modules in our GMA network.
- Abstract(参考訳): VQA(Visual Question Answering)タスクでは,画像に応じた意味論的に複雑な質問への回答が難しい。
画像は深層学習によってよく表現できるが、質問は常に単に埋め込まれており、その意味を十分に示すことはできない。
さらに、視覚的特徴とテキスト的特徴は異なるモダリティのギャップがあり、モダリティ情報の整合や利用は困難である。
本稿では,この2つの問題に着目し,グラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するだけでなく、構文と埋め込み情報の両方の観点から質問のためのグラフを構築する。
次に,双段グラフエンコーダを用いてモダリティ内関係を探索し,画像と質問の関係を推定するために注意を一致させる両側交叉モダリティグラフを示す。
更新されたクロスモダリティ機能は、最終応答予測のために応答予測モジュールに送られる。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
アブレーション研究はgmaネットワークにおける各モジュールの有効性を検証する。
関連論文リスト
- InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - SceneGATE: Scene-Graph based co-Attention networks for TExt visual
question answering [2.8974040580489198]
テキストVQAのためのScene Graphベースのコアテンションネットワーク(SceneGATE)を提案する。
対象物間の意味的関係、光学文字認識(OCR)トークンおよび質問語を明らかにする。
これはTextVQAベースのシーングラフによって実現され、画像の基盤となるセマンティクスを検出する。
論文 参考訳(メタデータ) (2022-12-16T05:10:09Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual
Question Answering [26.21870452615222]
FVQAは、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
問題指向で情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
与えられた問題に最も関係のある異なる層から証拠を捉えるために,モダリティを考慮した異種グラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-16T11:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。