論文の概要: KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA
- arxiv url: http://arxiv.org/abs/2012.11014v1
- Date: Sun, 20 Dec 2020 20:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:49:44.561326
- Title: KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA
- Title(参考訳): KRISP:オープンドメイン知識に基づくVQAのための暗黙的・象徴的知識の統合
- Authors: Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus
Rohrbach
- Abstract要約: VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
- 参考スコア(独自算出の注目度): 107.7091094498848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most challenging question types in VQA is when answering the
question requires outside knowledge not present in the image. In this work we
study open-domain knowledge, the setting when the knowledge required to answer
a question is not given/annotated, neither at training nor test time. We tap
into two types of knowledge representations and reasoning. First, implicit
knowledge which can be learned effectively from unsupervised language
pre-training and supervised training data with transformer-based models.
Second, explicit, symbolic knowledge encoded in knowledge bases. Our approach
combines both - exploiting the powerful implicit reasoning of transformer
models for answer prediction, and integrating symbolic representations from a
knowledge graph, while never losing their explicit semantics to an implicit
embedding. We combine diverse sources of knowledge to cover the wide variety of
knowledge needed to solve knowledge-based questions. We show our approach,
KRISP (Knowledge Reasoning with Implicit and Symbolic rePresentations),
significantly outperforms state-of-the-art on OK-VQA, the largest available
dataset for open-domain knowledge-based VQA. We show with extensive ablations
that while our model successfully exploits implicit knowledge reasoning, the
symbolic answer module which explicitly connects the knowledge graph to the
answer vocabulary is critical to the performance of our method and generalizes
to rare answers.
- Abstract(参考訳): VQAの最も難しい質問タイプの一つは、疑問に答えるには、画像に存在しない外部知識が必要である。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、教師なし言語から効果的に学習できる暗黙的知識と、トランスフォーマモデルを用いた教師なし学習データ。
第二に、明示的で象徴的な知識が知識ベースで符号化される。
我々のアプローチは、応答予測のためにトランスフォーマーモデルの強力な暗黙的推論を活用し、知識グラフから象徴的表現を統合すると同時に、明示的なセマンティクスを暗黙的埋め込みに決して失うことなく、両方を組み合わせる。
知識に基づく問題解決に必要な多様な知識をカバーするために、多様な知識源を組み合わせる。
我々のアプローチであるKRISP(Knowledge Reasoning with Implicit and Symbolic RePresentations)は、オープンドメイン知識ベースのVQAで利用可能な最大のデータセットであるOK-VQAにおいて、最先端よりも大幅に優れています。
我々のモデルは暗黙的知識推論をうまく活用する一方で、知識グラフと回答語彙を明示的に接続するシンボリック応答モジュールは、我々の手法の性能に欠かせないものであり、稀な解に一般化する。
関連論文リスト
- Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - VLC-BERT: Visual Question Answering with Contextualized Commonsense
Knowledge [48.457788853408616]
本稿では,視覚的・テキスト的手がかりとともに,外部の常識知識を生成,選択,符号化する手法を提案する。
VLC-BERTは静的知識ベースを利用した既存モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T22:01:17Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Coarse-to-Careful: Seeking Semantic-related Knowledge for Open-domain
Commonsense Question Answering [12.406729445165857]
背景コモンセンスを必要とする質問に機械が答えるのを助けるために、外部知識を利用するのが一般的である。
本稿では,知識注入を粗大から粗大に制御する意味駆動型知識認識型QAフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T10:56:36Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。