論文の概要: A Symmetric Dual Encoding Dense Retrieval Framework for
Knowledge-Intensive Visual Question Answering
- arxiv url: http://arxiv.org/abs/2304.13649v1
- Date: Wed, 26 Apr 2023 16:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:44:14.261636
- Title: A Symmetric Dual Encoding Dense Retrieval Framework for
Knowledge-Intensive Visual Question Answering
- Title(参考訳): 知識集約型視覚質問応答のための対称性二重符号化Dense Retrievalフレームワーク
- Authors: Alireza Salemi, Juan Altmayer Pizzorno, Hamed Zamani
- Abstract要約: KI-VQA (Knowledge-Intensive Visual Question Answering) とは、画像に答えがない画像についての質問に答えることである。
本稿では, KI-VQAタスクのための新しいパイプラインを提案する。
- 参考スコア(独自算出の注目度): 16.52970318866536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge-Intensive Visual Question Answering (KI-VQA) refers to answering a
question about an image whose answer does not lie in the image. This paper
presents a new pipeline for KI-VQA tasks, consisting of a retriever and a
reader. First, we introduce DEDR, a symmetric dual encoding dense retrieval
framework in which documents and queries are encoded into a shared embedding
space using uni-modal (textual) and multi-modal encoders. We introduce an
iterative knowledge distillation approach that bridges the gap between the
representation spaces in these two encoders. Extensive evaluation on two
well-established KI-VQA datasets, i.e., OK-VQA and FVQA, suggests that DEDR
outperforms state-of-the-art baselines by 11.6% and 30.9% on OK-VQA and FVQA,
respectively. Utilizing the passages retrieved by DEDR, we further introduce
MM-FiD, an encoder-decoder multi-modal fusion-in-decoder model, for generating
a textual answer for KI-VQA tasks. MM-FiD encodes the question, the image, and
each retrieved passage separately and uses all passages jointly in its decoder.
Compared to competitive baselines in the literature, this approach leads to
5.5% and 8.5% improvements in terms of question answering accuracy on OK-VQA
and FVQA, respectively.
- Abstract(参考訳): KI-VQA (Knowledge-Intensive Visual Question Answering) とは、画像に答えがない画像についての質問に答えることである。
本稿では, KI-VQAタスクのための新しいパイプラインを提案する。
まず,文書と問合せを共有埋め込み空間に符号化し,uni-modal (textual) とmulti-modal エンコーダで符号化する,対称的な2重符号化型検索フレームワーク dedr を紹介する。
これら2つのエンコーダの表現空間間のギャップを埋める反復的知識蒸留法を提案する。
確立された2つのKI-VQAデータセット、すなわちOK-VQAとFVQAの広範な評価は、DDRがOK-VQAとFVQAでそれぞれ11.6%、30.9%の最先端のベースラインを上回っていることを示唆している。
さらに,ki-vqaタスクに対してテキスト応答を生成するエンコーダ・デコーダ・マルチモーダル・フュージョン・イン・デコーダモデルmm-fidを提案する。
MM-FiDは、質問、画像、検索された各パスを別々にエンコードし、デコーダで全てのパスを共同で使用する。
文献の競争基準と比較すると、この手法はOK-VQAとFVQAの解答精度において5.5%と8.5%の改善をもたらす。
関連論文リスト
- FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection [61.9638234358049]
FastFiDは、エンコードされたパスで文の選択を実行する新しいアプローチである。
これにより、価値ある文を保持するのに役立ち、回答を生成するのに必要な文脈長を減らすことができる。
論文 参考訳(メタデータ) (2024-08-12T17:50:02Z) - Multiple-Question Multiple-Answer Text-VQA [19.228969692887603]
Multi-Question Multiple-Answer (MQMA) は、エンコーダ・デコーダ変換モデルでテキストVQAを行うための新しいアプローチである。
MQMAは、エンコーダの入力として複数の質問とコンテンツを取り込み、デコーダの複数の回答を自動回帰的に予測する。
本稿では,複数の質問や内容と関連する回答の整合性や記述をモデルに教える,新しいMQMA事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-11-15T01:00:02Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering [16.52970318866536]
本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-28T18:06:40Z) - Exploring Dual Encoder Architectures for Question Answering [17.59582094233306]
デュアルエンコーダは質問応答(QA)と情報検索(IR)タスクによく使われてきた。
デュアルエンコーダには、SDE(Siamese Duals)とADE(Asymmetric Dual Architectures)の2種類がある。
論文 参考訳(メタデータ) (2022-04-14T17:21:14Z) - KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain
Question Answering [68.00631278030627]
検索した通路間の構造的関係を知識グラフで利用することにより,ノイズのある通路をフィルタする新しい手法KG-FiDを提案する。
我々は,KG-FiDが解答一致スコアの最大1.5%向上し,計算コストの40%程度でFiDに匹敵する性能が得られることを示した。
論文 参考訳(メタデータ) (2021-10-08T18:39:59Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Differentiable Reasoning over a Virtual Knowledge Base [156.94984221342716]
コーパスを仮想知識ベース(KB)として,複雑なマルチホップ質問に答えるタスクについて検討する。
特に、コーパス内のエンティティの参照間の関係の経路をソフトに追従し、KBのようにテキストデータをトラバースするDrKITについて述べる。
DrKITは非常に効率的で、既存のマルチホップシステムよりも毎秒10-100倍のクエリを処理する。
論文 参考訳(メタデータ) (2020-02-25T03:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。