論文の概要: Joint learning of object graph and relation graph for visual question
answering
- arxiv url: http://arxiv.org/abs/2205.04188v1
- Date: Mon, 9 May 2022 11:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 19:32:44.536073
- Title: Joint learning of object graph and relation graph for visual question
answering
- Title(参考訳): 視覚的質問応答のためのオブジェクトグラフと関係グラフの連成学習
- Authors: Hao Li, Xu Li, Belhal Karimi, Jie Chen, Mingming Sun
- Abstract要約: DM-GNN(Dual Message-passing enhanced Graph Neural Network)を導入する。
DM-GNNは、マルチスケールのシーングラフ情報を適切に符号化することにより、バランスの取れた表現を得ることができる。
我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。
- 参考スコア(独自算出の注目度): 19.97265717398179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling visual question answering(VQA) through scene graphs can
significantly improve the reasoning accuracy and interpretability. However,
existing models answer poorly for complex reasoning questions with attributes
or relations, which causes false attribute selection or missing relation in
Figure 1(a). It is because these models cannot balance all kinds of information
in scene graphs, neglecting relation and attribute information. In this paper,
we introduce a novel Dual Message-passing enhanced Graph Neural Network
(DM-GNN), which can obtain a balanced representation by properly encoding
multi-scale scene graph information. Specifically, we (i)transform the scene
graph into two graphs with diversified focuses on objects and relations; Then
we design a dual structure to encode them, which increases the weights from
relations (ii)fuse the encoder output with attribute features, which increases
the weights from attributes; (iii)propose a message-passing mechanism to
enhance the information transfer between objects, relations and attributes. We
conduct extensive experiments on datasets including GQA, VG, motif-VG and
achieve new state of the art.
- Abstract(参考訳): シーングラフによる視覚的質問応答(VQA)のモデル化は、推論精度と解釈可能性を大幅に向上させることができる。
しかし、既存のモデルは、図1(a)で誤った属性選択または欠落関係を引き起こす属性または関係を持つ複雑な推論質問に対して不十分に答えている。
これらのモデルは、シーングラフにおけるあらゆる種類の情報のバランスが取れず、関係や属性情報を無視しているためである。
本稿では,マルチスケールのシーングラフ情報を適切に符号化することで,バランスのとれた表現が得られる新しいデュアルメッセージパス拡張グラフニューラルネットワーク(DM-GNN)を提案する。
具体的には
(i)シーングラフをオブジェクトとリレーションに多様化した2つのグラフに変換し、それらをエンコードする双対構造を設計し、関係から重みを増加させる。
(ii) エンコーダ出力を属性特徴と融合させ、属性から重みを増加させる。
(iii)オブジェクト、リレーション、属性間の情報伝達を強化するメッセージパッシング機構を提案する。
我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。
関連論文リスト
- Relation-Aware Question Answering for Heterogeneous Knowledge Graphs [37.38138785470231]
既存の検索に基づくアプローチは、異なるホップにおける特定の関係に集中することで、この課題を解決する。
我々は,現在の関係表現を強化するために,ヘッドテールエンティティや関係間の意味的関係からの情報を利用することができないと主張している。
当社のアプローチは,従来の最先端技術よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-12-19T08:01:48Z) - GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language
Models [33.56759621666477]
本稿では,言語モデルへのグラフ知識の統合を評価するためのベンチマークデータセットを提案する。
提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。
言語のみのモデルと提案したグラフ言語モデルを用いて,ペアグラフの有用性を検証し,課題の難しさを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:46:58Z) - Probing Graph Representations [77.7361299039905]
グラフ表現でキャプチャされた意味のある情報の量を定量化するために、探索フレームワークを使用します。
本研究は, グラフモデルにおける帰納的バイアスを理解するための探索の可能性を示すものである。
グラフベースモデルを評価する上で有用な診断ツールとして,探索を提唱する。
論文 参考訳(メタデータ) (2023-03-07T14:58:18Z) - Question-Driven Graph Fusion Network For Visual Question Answering [15.098694655795168]
質問駆動グラフ融合ネットワーク(QD-GFN)を提案する。
まず3つのグラフアテンションネットワークによる画像のセマンティック、空間、暗黙的な視覚関係をモデル化し、3つのグラフの集約プロセスを導くために質問情報を利用する。
実験の結果,我々のQD-GFNはVQA 2.0とVQA-CP v2データセットの両方で先行技術よりも優れていた。
論文 参考訳(メタデータ) (2022-04-03T03:02:03Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - CopulaGNN: Towards Integrating Representational and Correlational Roles
of Graphs in Graph Neural Networks [23.115288017590093]
グラフニューラルネットワーク(GNN)モデルが両タイプの情報を効果的に活用する方法について検討する。
提案したCopula Graph Neural Network (CopulaGNN)は、幅広いGNNモデルをベースモデルとして扱うことができる。
論文 参考訳(メタデータ) (2020-10-05T15:20:04Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。