論文の概要: Joint learning of object graph and relation graph for visual question
answering
- arxiv url: http://arxiv.org/abs/2205.04188v1
- Date: Mon, 9 May 2022 11:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 19:32:44.536073
- Title: Joint learning of object graph and relation graph for visual question
answering
- Title(参考訳): 視覚的質問応答のためのオブジェクトグラフと関係グラフの連成学習
- Authors: Hao Li, Xu Li, Belhal Karimi, Jie Chen, Mingming Sun
- Abstract要約: DM-GNN(Dual Message-passing enhanced Graph Neural Network)を導入する。
DM-GNNは、マルチスケールのシーングラフ情報を適切に符号化することにより、バランスの取れた表現を得ることができる。
我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。
- 参考スコア(独自算出の注目度): 19.97265717398179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling visual question answering(VQA) through scene graphs can
significantly improve the reasoning accuracy and interpretability. However,
existing models answer poorly for complex reasoning questions with attributes
or relations, which causes false attribute selection or missing relation in
Figure 1(a). It is because these models cannot balance all kinds of information
in scene graphs, neglecting relation and attribute information. In this paper,
we introduce a novel Dual Message-passing enhanced Graph Neural Network
(DM-GNN), which can obtain a balanced representation by properly encoding
multi-scale scene graph information. Specifically, we (i)transform the scene
graph into two graphs with diversified focuses on objects and relations; Then
we design a dual structure to encode them, which increases the weights from
relations (ii)fuse the encoder output with attribute features, which increases
the weights from attributes; (iii)propose a message-passing mechanism to
enhance the information transfer between objects, relations and attributes. We
conduct extensive experiments on datasets including GQA, VG, motif-VG and
achieve new state of the art.
- Abstract(参考訳): シーングラフによる視覚的質問応答(VQA)のモデル化は、推論精度と解釈可能性を大幅に向上させることができる。
しかし、既存のモデルは、図1(a)で誤った属性選択または欠落関係を引き起こす属性または関係を持つ複雑な推論質問に対して不十分に答えている。
これらのモデルは、シーングラフにおけるあらゆる種類の情報のバランスが取れず、関係や属性情報を無視しているためである。
本稿では,マルチスケールのシーングラフ情報を適切に符号化することで,バランスのとれた表現が得られる新しいデュアルメッセージパス拡張グラフニューラルネットワーク(DM-GNN)を提案する。
具体的には
(i)シーングラフをオブジェクトとリレーションに多様化した2つのグラフに変換し、それらをエンコードする双対構造を設計し、関係から重みを増加させる。
(ii) エンコーダ出力を属性特徴と融合させ、属性から重みを増加させる。
(iii)オブジェクト、リレーション、属性間の情報伝達を強化するメッセージパッシング機構を提案する。
我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Higher Order Structures For Graph Explanations [9.164945693135959]
グラフ説明における高階表現のためのフレームワーク(FORGE)を提案する。
FORGEはグラフ説明器が高次のマルチノードインタラクションをキャプチャすることを可能にする。
平均説明精度をそれぞれ1.9倍と2.25倍に改善する。
論文 参考訳(メタデータ) (2024-06-05T13:31:30Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Relation-Aware Question Answering for Heterogeneous Knowledge Graphs [37.38138785470231]
既存の検索に基づくアプローチは、異なるホップにおける特定の関係に集中することで、この課題を解決する。
我々は,現在の関係表現を強化するために,ヘッドテールエンティティや関係間の意味的関係からの情報を利用することができないと主張している。
当社のアプローチは,従来の最先端技術よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-12-19T08:01:48Z) - GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language
Models [33.56759621666477]
本稿では,言語モデルへのグラフ知識の統合を評価するためのベンチマークデータセットを提案する。
提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。
言語のみのモデルと提案したグラフ言語モデルを用いて,ペアグラフの有用性を検証し,課題の難しさを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:46:58Z) - Probing Graph Representations [77.7361299039905]
グラフ表現でキャプチャされた意味のある情報の量を定量化するために、探索フレームワークを使用します。
本研究は, グラフモデルにおける帰納的バイアスを理解するための探索の可能性を示すものである。
グラフベースモデルを評価する上で有用な診断ツールとして,探索を提唱する。
論文 参考訳(メタデータ) (2023-03-07T14:58:18Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Dual ResGCN for Balanced Scene GraphGeneration [106.7828712878278]
本稿では,オブジェクト残差グラフ畳み込みネットワークと関係残差グラフ畳み込みネットワークからなる新しいモデルであるtextitdual ResGCNを提案する。
2つのネットワークは相互に補完的であり、前者はオブジェクトレベルのコンテキスト情報、すなわちオブジェクト間の接続をキャプチャする。
後者は、関係レベルのコンテキスト情報、すなわち関係間の関係を明示的にキャプチャするように設計されている。
論文 参考訳(メタデータ) (2020-11-09T07:44:17Z) - CopulaGNN: Towards Integrating Representational and Correlational Roles
of Graphs in Graph Neural Networks [23.115288017590093]
グラフニューラルネットワーク(GNN)モデルが両タイプの情報を効果的に活用する方法について検討する。
提案したCopula Graph Neural Network (CopulaGNN)は、幅広いGNNモデルをベースモデルとして扱うことができる。
論文 参考訳(メタデータ) (2020-10-05T15:20:04Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。