論文の概要: Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question
Answering
- arxiv url: http://arxiv.org/abs/2109.04014v1
- Date: Thu, 9 Sep 2021 03:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:20:33.454531
- Title: Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question
Answering
- Title(参考訳): 知識ベース質問応答のための弱教師付きビジュアルレトリエリーダ
- Authors: Man Luo, Yankai Zeng, Pratyay Banerjee, Chitta Baral
- Abstract要約: 知識に基づく視覚的質問応答(VQA)は、画像の内容に加えて、外部知識で質問に答える必要がある。
知識に基づくVQAの評価に主に使用されるデータセットはOK-VQAであるが、検索のための金の標準知識コーパスがない。
知識に基づくVQAにアプローチするためのVisual Retriever-Readerパイプラインを提案する。
- 参考スコア(独自算出の注目度): 16.96751206502189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based visual question answering (VQA) requires answering questions
with external knowledge in addition to the content of images. One dataset that
is mostly used in evaluating knowledge-based VQA is OK-VQA, but it lacks a gold
standard knowledge corpus for retrieval. Existing work leverage different
knowledge bases (e.g., ConceptNet and Wikipedia) to obtain external knowledge.
Because of varying knowledge bases, it is hard to fairly compare models'
performance. To address this issue, we collect a natural language knowledge
base that can be used for any VQA system. Moreover, we propose a Visual
Retriever-Reader pipeline to approach knowledge-based VQA. The visual retriever
aims to retrieve relevant knowledge, and the visual reader seeks to predict
answers based on given knowledge. We introduce various ways to retrieve
knowledge using text and images and two reader styles: classification and
extraction. Both the retriever and reader are trained with weak supervision.
Our experimental results show that a good retriever can significantly improve
the reader's performance on the OK-VQA challenge. The code and corpus are
provided in https://github.com/luomancs/retriever\_reader\_for\_okvqa.git
- Abstract(参考訳): 知識に基づく視覚的質問応答(VQA)は、画像の内容に加えて、外部知識で質問に答える必要がある。
知識に基づくVQAの評価に主に使用されるデータセットはOK-VQAであるが、検索のための金の標準知識コーパスがない。
既存の作業は異なる知識基盤(ConceptNetやWikipediaなど)を活用して外部知識を得る。
知識ベースが異なるため、モデルのパフォーマンスを公平に比較することは困難である。
この問題に対処するため、我々は任意のvqaシステムで使用できる自然言語知識ベースを収集します。
さらに,知識に基づくVQAにアプローチするためのVisual Retriever-Readerパイプラインを提案する。
視覚的検索者は関連する知識を検索することを目的としており、視覚的読者は与えられた知識に基づいて回答を予測する。
テキストと画像を用いて知識を抽出する方法と、分類と抽出の2つのスタイルを紹介する。
レトリバーとリーダーの両方が弱い監督の下で訓練される。
実験の結果,ok-vqa課題において,優れたレトリバーが読者のパフォーマンスを大幅に向上できることがわかった。
コードとコーパスはhttps://github.com/luomancs/retriever\_reader\_for\_okvqa.gitで提供される。
関連論文リスト
- Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。
DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。
本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:44:20Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - VLC-BERT: Visual Question Answering with Contextualized Commonsense
Knowledge [48.457788853408616]
本稿では,視覚的・テキスト的手がかりとともに,外部の常識知識を生成,選択,符号化する手法を提案する。
VLC-BERTは静的知識ベースを利用した既存モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T22:01:17Z) - Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering [27.38981906033932]
Outside-Knowledge Visual Question Answering (OK-VQA) システムは、まず外部知識を取得して回答を予測する2段階のフレームワークを使用している。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
本稿では,より具体的な知識を得るのに役立つ質問関連エンティティを識別し,トレーニング中のより強力な監視を提供するEntity-Focused Retrieval(EnFoRe)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T21:39:24Z) - LaKo: Knowledge-driven Visual Question Answering via Late
Knowledge-to-Text Injection [30.65373229617201]
我々はLate Knowledge-to-text Injectionによる知識駆動型VQA手法であるLaKoを提案する。
外部KGを効果的に組み込むため、三重項をテキストに転送し、遅延注入機構を提案する。
提案手法は,OKVQAデータセットを用いた評価において,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-07-26T13:29:51Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Multi-Modal Answer Validation for Knowledge-Based VQA [44.80209704315099]
外部知識を用いたマルチモーダル回答検証(MAVEx)を提案する。
アイデアは、答え固有の知識検索に基づいて有望な回答候補のセットを検証することです。
難解な知識に基づくVQAデータセットであるOK-VQAを用いた実験により、MAVExが新しい最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2021-03-23T00:49:36Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。