論文の概要: Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2306.16478v1
- Date: Wed, 28 Jun 2023 18:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:54:09.658431
- Title: Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering
- Title(参考訳): 外部知識ビジュアル質問応答のための事前学習型マルチモーダルドライザー
- Authors: Alireza Salemi, Mahta Rafiee, Hamed Zamani
- Abstract要約: 本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 16.52970318866536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper studies a category of visual question answering tasks, in which
accessing external knowledge is necessary for answering the questions. This
category is called outside-knowledge visual question answering (OK-VQA). A
major step in developing OK-VQA systems is to retrieve relevant documents for
the given multi-modal query. Current state-of-the-art asymmetric dense
retrieval model for this task uses an architecture with a multi-modal query
encoder and a uni-modal document encoder. Such an architecture requires a large
amount of training data for effective performance. We propose an automatic data
generation pipeline for pre-training passage retrieval models for OK-VQA tasks.
The proposed approach leads to 26.9% Precision@5 improvements compared to the
current state-of-the-art asymmetric architecture. Additionally, the proposed
pre-training approach exhibits a good ability in zero-shot retrieval scenarios.
- Abstract(参考訳): 本稿では,質問への回答に外部知識へのアクセスが必要である視覚質問応答タスクのカテゴリについて検討する。
このカテゴリーは外部知識視覚質問応答 (OK-VQA) と呼ばれる。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
このタスクの最先端非対称密度検索モデルは、マルチモーダルクエリエンコーダとユニモーダルドキュメントエンコーダを備えたアーキテクチャを使用する。
このようなアーキテクチャは、効果的なパフォーマンスのために大量のトレーニングデータを必要とする。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
提案されたアプローチは、現在の最先端非対称アーキテクチャと比較して26.9%の精度@5の改善をもたらす。
さらに、提案した事前学習アプローチは、ゼロショット検索シナリオにおいて優れた能力を示す。
関連論文リスト
- End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Retrieval Augmented Visual Question Answering with Outside Knowledge [14.371342370460685]
Outside-Knowledge Visual Question Answering (OK-VQA)は、画像に関する質問に答えるために外部知識の検索を必要とする難しいVQAタスクである。
最近のOK-VQAシステムでは、Dense Passage Retrieval (DPR) を使用して、ウィキペディアのような外部知識ベースから文書を検索するが、回答生成とは別々に訓練されている。
本稿では,対話型DPRと解答生成を統合した共同学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T20:35:58Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。