論文の概要: Question-Driven Graph Fusion Network For Visual Question Answering
- arxiv url: http://arxiv.org/abs/2204.00975v1
- Date: Sun, 3 Apr 2022 03:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:10:10.606374
- Title: Question-Driven Graph Fusion Network For Visual Question Answering
- Title(参考訳): ビジュアル質問応答のための質問駆動グラフ融合ネットワーク
- Authors: Yuxi Qian, Yuncong Hu, Ruonan Wang, Fangxiang Feng and Xiaojie Wang
- Abstract要約: 質問駆動グラフ融合ネットワーク(QD-GFN)を提案する。
まず3つのグラフアテンションネットワークによる画像のセマンティック、空間、暗黙的な視覚関係をモデル化し、3つのグラフの集約プロセスを導くために質問情報を利用する。
実験の結果,我々のQD-GFNはVQA 2.0とVQA-CP v2データセットの両方で先行技術よりも優れていた。
- 参考スコア(独自算出の注目度): 15.098694655795168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Visual Question Answering (VQA) models have explored various visual
relationships between objects in the image to answer complex questions, which
inevitably introduces irrelevant information brought by inaccurate object
detection and text grounding. To address the problem, we propose a
Question-Driven Graph Fusion Network (QD-GFN). It first models semantic,
spatial, and implicit visual relations in images by three graph attention
networks, then question information is utilized to guide the aggregation
process of the three graphs, further, our QD-GFN adopts an object filtering
mechanism to remove question-irrelevant objects contained in the image.
Experiment results demonstrate that our QD-GFN outperforms the prior
state-of-the-art on both VQA 2.0 and VQA-CP v2 datasets. Further analysis shows
that both the novel graph aggregation method and object filtering mechanism
play a significant role in improving the performance of the model.
- Abstract(参考訳): 既存のVisual Question Answering (VQA)モデルは、複雑な質問に答えるために画像内のオブジェクト間の様々な視覚的関係を探索してきた。
そこで本研究では,質問駆動グラフ融合ネットワーク(QD-GFN)を提案する。
まず,3つのグラフアテンションネットワークによる画像の意味的,空間的,暗黙的な視覚的関係をモデル化し,質問情報を用いて3つのグラフの集約プロセスを導出する。
実験の結果,我々のQD-GFNはVQA 2.0とVQA-CP v2データセットの両方において先行技術よりも優れていた。
さらに分析した結果,新しいグラフ集約法とオブジェクトフィルタリング機構が,モデルの性能向上に重要な役割を果たすことがわかった。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - No-Reference Point Cloud Quality Assessment via Graph Convolutional Network [89.12589881881082]
3次元(3D)ポイントクラウドは、新しいビジュアルメディアフォーマットとして、消費者にますます好まれている。
ポイントクラウドは、必然的に、マルチメディア通信システムによる品質劣化と情報損失に悩まされる。
マルチビュー2次元投影画像の相互依存関係を特徴付けるために,GCN(Graph Convolutional Network)を用いた新しい非参照PCQA手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T11:39:05Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - Joint learning of object graph and relation graph for visual question
answering [19.97265717398179]
DM-GNN(Dual Message-passing enhanced Graph Neural Network)を導入する。
DM-GNNは、マルチスケールのシーングラフ情報を適切に符号化することにより、バランスの取れた表現を得ることができる。
我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2022-05-09T11:08:43Z) - Question-Answer Sentence Graph for Joint Modeling Answer Selection [122.29142965960138]
我々は,質問文,質問文,回答文のペア間のスコアを計算するための最先端(SOTA)モデルを訓練し,統合する。
オンライン推論は、目に見えないクエリのAS2タスクを解決するために実行される。
論文 参考訳(メタデータ) (2022-02-16T05:59:53Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。