論文の概要: Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for
Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2204.10448v1
- Date: Fri, 22 Apr 2022 00:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 12:40:24.075279
- Title: Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for
Knowledge-based Visual Question Answering
- Title(参考訳): Hypergraph Transformer:知識に基づく視覚質問応答のための弱教師付きマルチホップ推論
- Authors: Yu-Jung Heo, Eun-Sol Kim, Woo Suk Choi and Byoung-Tak Zhang
- Abstract要約: 知識に基づく視覚的質問応答 (QA) は、画像コンテンツそのもの以外の視覚的な外部知識を必要とする質問に答えることを目的としている。
ハイパーグラフの概念を導入し,質問の高次意味論と知識ベースをエンコードし,それら間の高次関連を学習する。
- 参考スコア(独自算出の注目度): 26.635416372342657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (QA) aims to answer a question
which requires visually-grounded external knowledge beyond image content
itself. Answering complex questions that require multi-hop reasoning under weak
supervision is considered as a challenging problem since i) no supervision is
given to the reasoning process and ii) high-order semantics of multi-hop
knowledge facts need to be captured. In this paper, we introduce a concept of
hypergraph to encode high-level semantics of a question and a knowledge base,
and to learn high-order associations between them. The proposed model,
Hypergraph Transformer, constructs a question hypergraph and a query-aware
knowledge hypergraph, and infers an answer by encoding inter-associations
between two hypergraphs and intra-associations in both hypergraph itself.
Extensive experiments on two knowledge-based visual QA and two knowledge-based
textual QA demonstrate the effectiveness of our method, especially for
multi-hop reasoning problem. Our source code is available at
https://github.com/yujungheo/kbvqa-public.
- Abstract(参考訳): knowledge-based visual question answering(qa)は、画像コンテンツそのもの以上の視覚的な外部知識を必要とする質問に答えることを目的としている。
弱い監督下でマルチホップ推論を必要とする複雑な質問に答えることは難しい問題である。
一 合理化の過程について監督を受けていないこと。
二 マルチホップ知識事実の高次意味論を捉えなければならない。
本稿では,質問と知識ベースにおける高レベル意味論をエンコードし,それらの間の高次関係を学習するためのハイパーグラフの概念を提案する。
提案手法であるハイパーグラフトランスフォーマ(hypergraph transformer)は,問合せハイパーグラフと問合せ認識型知識ハイパーグラフを構築し,2つのハイパーグラフ間の相互結合と両方のハイパーグラフ自体の相互結合を符号化することにより,回答を推定する。
2つの知識に基づく視覚的QAと2つの知識に基づくテキスト的QAに関する大規模な実験は、特にマルチホップ推論問題に対する我々の手法の有効性を示す。
ソースコードはhttps://github.com/yujungheo/kbvqa-publicで入手できます。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - ConVQG: Contrastive Visual Question Generation with Multimodal Guidance [20.009626292937995]
本研究では,コントラスト的視覚質問生成(ConVQG)を提案し,画像的,テキスト的,知識に富んだ質問を生成する。
知識認識と標準VQGベンチマークの実験は、ConVQGが最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-20T09:20:30Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Ask to Understand: Question Generation for Multi-hop Question Answering [11.626390908264872]
マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複数の文書から散乱した手がかりを見つけ、推論することで複雑な質問に答えることを要求する。
質問生成(QG)の観点から,マルチホップQAを補完する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T04:02:29Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。