論文の概要: Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering
- arxiv url: http://arxiv.org/abs/2309.17133v2
- Date: Sat, 28 Oct 2023 16:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:01:32.317810
- Title: Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering
- Title(参考訳): 拡張視覚質問応答検索のための細粒度遅延対話型マルチモーダル検索
- Authors: Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne
- Abstract要約: 知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
- 参考スコア(独自算出の注目度): 56.96857992123026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KB-VQA) requires VQA systems to
utilize knowledge from external knowledge bases to answer visually-grounded
questions. Retrieval-Augmented Visual Question Answering (RA-VQA), a strong
framework to tackle KB-VQA, first retrieves related documents with Dense
Passage Retrieval (DPR) and then uses them to answer questions. This paper
proposes Fine-grained Late-interaction Multi-modal Retrieval (FLMR) which
significantly improves knowledge retrieval in RA-VQA. FLMR addresses two major
limitations in RA-VQA's retriever: (1) the image representations obtained via
image-to-text transforms can be incomplete and inaccurate and (2) relevance
scores between queries and documents are computed with one-dimensional
embeddings, which can be insensitive to finer-grained relevance. FLMR overcomes
these limitations by obtaining image representations that complement those from
the image-to-text transforms using a vision model aligned with an existing
text-based retriever through a simple alignment network. FLMR also encodes
images and questions using multi-dimensional embeddings to capture
finer-grained relevance between queries and documents. FLMR significantly
improves the original RA-VQA retriever's PRRecall@5 by approximately 8\%.
Finally, we equipped RA-VQA with two state-of-the-art large
multi-modal/language models to achieve $\sim61\%$ VQA score in the OK-VQA
dataset.
- Abstract(参考訳): 知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
KB-VQAに取り組む強力なフレームワークであるRetrieval-Augmented Visual Question Answering (RA-VQA)は、まずDense Passage Retrieval (DPR)で関連ドキュメントを取得し、その後、それらを使用して質問に答える。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
1)画像からテキストへの変換によって得られた画像表現は不完全で不正確であり、(2)クエリとドキュメント間の関連スコアは1次元の埋め込みで計算され、よりきめ細かな関連性には敏感である。
FLMRは、画像からテキストへの変換を補完する画像表現を、単純なアライメントネットワークを通じて既存のテキストベースレトリバーと整列した視覚モデルを用いて取得することで、これらの制限を克服する。
flmrはまた、多次元埋め込みを使って画像や質問をエンコードし、クエリとドキュメント間のきめ細かい関連性を捉える。
FLMRはRA-VQAレトリバーのPRRecall@5を約8倍改善する。
最後に、RA-VQAと最先端の2つの大規模マルチモーダル/言語モデルを用いて、OK-VQAデータセットで$\sim61\%$VQAスコアを得る。
関連論文リスト
- Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いた検索拡張MLLMを提案する。
RACCはOK-VQAで62.9%の最先端(SOTA)性能を達成する。
RAVQA-v2と比較して、推論遅延を22.0%-59.7%削減する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering [68.47402250389685]
この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。
結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T15:56:08Z) - Answer Mining from a Pool of Images: Towards Retrieval-Based Visual
Question Answering [7.3532068640624395]
本研究では,関連性のある無関係な画像のプールから回答を抽出しなければならない状況下で,視覚的質問応答について検討する。
そこで我々は,疑問を呈し,関連エンコーダを用いて画像検索を行うMulti Image BART (MI-BART) を提案する。
提案手法は,提案したデータセット,すなわちRETVQAにおいて76.5%の精度と79.3%の流速を実現する。
論文 参考訳(メタデータ) (2023-06-29T06:22:43Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - A Symmetric Dual Encoding Dense Retrieval Framework for
Knowledge-Intensive Visual Question Answering [16.52970318866536]
KI-VQA (Knowledge-Intensive Visual Question Answering) とは、画像に答えがない画像についての質問に答えることである。
本稿では, KI-VQAタスクのための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-26T16:14:39Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing [1.491109220586182]
VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、ジェネリック情報を抽出することを可能にする。
現在の融合アプローチの多くは、合同表現学習の代わりに、その融合加群におけるモダリティ固有の表現を使用する。
この問題を解決するために,マルチモーダルトランスを用いたアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:20:33Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。