論文の概要: Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection
- arxiv url: http://arxiv.org/abs/2112.06888v1
- Date: Mon, 13 Dec 2021 18:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 14:40:04.526036
- Title: Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection
- Title(参考訳): エンティティ強化知識注入による知識に基づく視覚的質問応答の改善と診断
- Authors: Diego Garcia-Olano, Yasumasa Onoe, Joydeep Ghosh
- Abstract要約: KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
- 参考スコア(独自算出の注目度): 14.678153928301493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-Based Visual Question Answering (KBVQA) is a bi-modal task
requiring external world knowledge in order to correctly answer a text question
and associated image. Recent single modality text work has shown knowledge
injection into pre-trained language models, specifically entity enhanced
knowledge graph embeddings, can improve performance on downstream
entity-centric tasks. In this work, we empirically study how and whether such
methods, applied in a bi-modal setting, can improve an existing VQA system's
performance on the KBVQA task. We experiment with two large publicly available
VQA datasets, (1) KVQA which contains mostly rare Wikipedia entities and (2)
OKVQA which is less entity-centric and more aligned with common sense
reasoning. Both lack explicit entity spans and we study the effect of different
weakly supervised and manual methods for obtaining them. Additionally we
analyze how recently proposed bi-modal and single modal attention explanations
are affected by the incorporation of such entity enhanced representations. Our
results show substantial improved performance on the KBVQA task without the
need for additional costly pre-training and we provide insights for when entity
knowledge injection helps improve a model's understanding. We provide code and
enhanced datasets for reproducibility.
- Abstract(参考訳): KBVQA(Knowledge-Based Visual Question Answering)は、テキスト質問と関連する画像に正しく答えるために、外部の知識を必要とするバイモーダルタスクである。
最近の単一のモダリティテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入は、下流のエンティティ中心のタスクのパフォーマンスを向上させることができる。
本研究では,これらの手法をバイモーダル環境で適用することで,kbvqaタスクにおける既存のvqaシステムの性能を向上できるかどうかを実証的に検討する。
我々は,(1)稀なウィキペディアのエンティティを多く含むKVQA,(2)エンティティ中心ではなく,常識推論に適合したOKVQAの2つの大規模公開VQAデータセットを実験した。
どちらも明示的な実体が欠如しており、我々はそれらを得るための弱い教師と手動の方法の効果について研究している。
さらに、最近提案されているバイモーダルおよびシングルモーダル注意説明が、そのようなエンティティ拡張表現の導入によってどのように影響を受けるかを分析する。
その結果,KBVQAタスクの性能は,コストのかかる事前学習を必要とせずに大幅に向上し,エンティティ知識注入がモデルの理解向上に有効であることを示す。
再現性のためのコードと拡張データセットを提供します。
関連論文リスト
- FusionMind -- Improving question and answering with external context
fusion [0.0]
事前学習言語モデル(LM)と知識グラフ(KG)を用いて,文脈知識が質問応答目標(QA)に与える影響を検討した。
知識事実のコンテキストを取り入れることで、パフォーマンスが大幅に向上することがわかった。
このことは、文脈的知識事実の統合が、質問応答のパフォーマンスを高める上でより影響があることを示唆している。
論文 参考訳(メタデータ) (2023-12-31T03:51:31Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering [27.38981906033932]
Outside-Knowledge Visual Question Answering (OK-VQA) システムは、まず外部知識を取得して回答を予測する2段階のフレームワークを使用している。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
本稿では,より具体的な知識を得るのに役立つ質問関連エンティティを識別し,トレーニング中のより強力な監視を提供するEntity-Focused Retrieval(EnFoRe)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T21:39:24Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。