論文の概要: Answer Mining from a Pool of Images: Towards Retrieval-Based Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2306.16713v1
- Date: Thu, 29 Jun 2023 06:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:25:54.387538
- Title: Answer Mining from a Pool of Images: Towards Retrieval-Based Visual
Question Answering
- Title(参考訳): 画像プールからの回答マイニング:検索に基づく視覚的質問応答に向けて
- Authors: Abhirama Subramanyam Penamakuri, Manish Gupta, Mithun Das Gupta, Anand
Mishra
- Abstract要約: 本研究では,関連性のある無関係な画像のプールから回答を抽出しなければならない状況下で,視覚的質問応答について検討する。
そこで我々は,疑問を呈し,関連エンコーダを用いて画像検索を行うMulti Image BART (MI-BART) を提案する。
提案手法は,提案したデータセット,すなわちRETVQAにおいて76.5%の精度と79.3%の流速を実現する。
- 参考スコア(独自算出の注目度): 7.3532068640624395
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study visual question answering in a setting where the answer has to be
mined from a pool of relevant and irrelevant images given as a context. For
such a setting, a model must first retrieve relevant images from the pool and
answer the question from these retrieved images. We refer to this problem as
retrieval-based visual question answering (or RETVQA in short). The RETVQA is
distinctively different and more challenging than the traditionally-studied
Visual Question Answering (VQA), where a given question has to be answered with
a single relevant image in context. Towards solving the RETVQA task, we propose
a unified Multi Image BART (MI-BART) that takes a question and retrieved images
using our relevance encoder for free-form fluent answer generation. Further, we
introduce the largest dataset in this space, namely RETVQA, which has the
following salient features: multi-image and retrieval requirement for VQA,
metadata-independent questions over a pool of heterogeneous images, expecting a
mix of classification-oriented and open-ended generative answers. Our proposed
framework achieves an accuracy of 76.5% and a fluency of 79.3% on the proposed
dataset, namely RETVQA and also outperforms state-of-the-art methods by 4.9%
and 11.8% on the image segment of the publicly available WebQA dataset on the
accuracy and fluency metrics, respectively.
- Abstract(参考訳): 本研究では,コンテキストとして与えられた関連画像と無関係画像のプールから回答を抽出する必要がある場合の視覚的質問応答について検討する。
このような設定のために、モデルはまず、プールから関連する画像を取得し、これらの画像から質問に答えなければならない。
本稿では,この問題を検索に基づく視覚質問応答(略してRETVQA)と呼ぶ。
RETVQAは、伝統的に研究されてきたVisual Question Answering (VQA)とは異なる、より困難なものである。
本稿では,RETVQAタスクの解決に向けて,疑問を呈し,関連エンコーダを用いて画像の検索を行うMulti Image BART(MI-BART)を提案する。
さらに,この領域で最大のデータセットであるRETVQAを導入し,VQAのマルチイメージと検索要件,異種画像のプール上でのメタデータに依存しない質問,分類指向とオープンな生成的回答の混合を期待する。
提案フレームワークは,提案したデータセット,すなわちRETVQAでは76.5%,流布率79.3%の精度を達成し,また,公開可能なWebQAデータセットの画像セグメントでは,それぞれ4.9%,11.8%の精度で最先端の手法を上回っている。
関連論文リスト
- VQA4CIR: Boosting Composed Image Retrieval with Visual Question
Answering [68.47402250389685]
この作業は、CIRのパフォーマンスを高めるために、Visual Question Answering(VQA)の視点を提供する。
結果として生じるVQA4CIRは後処理のアプローチであり、既存のCIRメソッドに直接接続することができる。
実験の結果,提案手法はCIRRおよびFashion-IQデータセット上での最先端CIR法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-19T15:56:08Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - Answer-checking in Context: A Multi-modal FullyAttention Network for
Visual Question Answering [8.582218033859087]
完全注意に基づく視覚質問応答アーキテクチャを提案する。
共同回答,質問,画像表現を統一的に注目するために,回答チェックモジュールを提案する。
VQA-v2.0テスト標準スプリットのパラメータを減らし,最先端の精度71.57%を実現した。
論文 参考訳(メタデータ) (2020-10-17T03:37:16Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - REXUP: I REason, I EXtract, I UPdate with Structured Compositional
Reasoning for Visual Question Answering [4.02726934790798]
視覚構造を意識したテキスト情報を用いた深部推論VQAモデルを提案する。
REXUPネットワークは、画像オブジェクト指向とシーングラフ指向の2つのブランチで構成され、超対角融合合成注意ネットワークと協調して動作する。
私たちの最高のモデルは、検証セットに92.7%、テストデブセットに73.1%を提供する、貴重な最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2020-07-27T00:54:50Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。