論文の概要: Retrieval Augmented Visual Question Answering with Outside Knowledge
- arxiv url: http://arxiv.org/abs/2210.03809v1
- Date: Fri, 7 Oct 2022 20:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:16:48.998997
- Title: Retrieval Augmented Visual Question Answering with Outside Knowledge
- Title(参考訳): 外部知識を用いた検索型視覚質問応答
- Authors: Weizhe Lin, Bill Byrne
- Abstract要約: Outside-Knowledge Visual Question Answering (OK-VQA)は、画像に関する質問に答えるために外部知識の検索を必要とする難しいVQAタスクである。
最近のOK-VQAシステムでは、Dense Passage Retrieval (DPR) を使用して、ウィキペディアのような外部知識ベースから文書を検索するが、回答生成とは別々に訓練されている。
本稿では,対話型DPRと解答生成を統合した共同学習手法を提案する。
- 参考スコア(独自算出の注目度): 14.371342370460685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Outside-Knowledge Visual Question Answering (OK-VQA) is a challenging VQA
task that requires retrieval of external knowledge to answer questions about
images. Recent OK-VQA systems use Dense Passage Retrieval (DPR) to retrieve
documents from external knowledge bases, such as Wikipedia, but with DPR
trained separately from answer generation, introducing a potential limit on the
overall system performance. Instead, we propose a joint training scheme which
includes differentiable DPR integrated with answer generation so that the
system can be trained in an end-to-end fashion. Our experiments show that our
scheme outperforms recent OK-VQA systems with strong DPR for retrieval. We also
introduce new diagnostic metrics to analyze how retrieval and generation
interact. The strong retrieval ability of our model significantly reduces the
number of retrieved documents needed in training, yielding significant benefits
in answer quality and computation required for training.
- Abstract(参考訳): Outside-Knowledge Visual Question Answering (OK-VQA)は、画像に関する質問に答えるために外部知識の検索を必要とする難しいVQAタスクである。
最近のOK-VQAシステムでは、Dense Passage Retrieval (DPR) を使用してウィキペディアのような外部知識ベースから文書を検索するが、DPRは回答生成から独立した訓練を受け、システム全体のパフォーマンスに潜在的な制限を導入する。
代わりに,システムをエンドツーエンドでトレーニングできるように,応答生成と統合した微分可能なdprを含む合同学習方式を提案する。
提案手法は, 検索に強力なDPRを持つ最近のOK-VQAシステムより優れていることを示す。
また、検索と生成の相互作用を分析するための新しい診断指標も導入する。
本モデルの検索能力は,学習に必要な文書の検索回数を大幅に減らし,学習に必要な回答品質と計算量に大きなメリットをもたらす。
関連論文リスト
- Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering [16.52970318866536]
本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-28T18:06:40Z) - PIE-QG: Paraphrased Information Extraction for Unsupervised Question
Generation from Small Corpora [4.721845865189576]
PIE-QGは、オープン情報抽出(OpenIE)を使用して、パラフレーズ付き通路から合成トレーニング質問を生成する。
主語,述語,対象>の3つを各節から抽出し,主語(または対象)と述語で質問し,対象(または対象)を回答とする。
論文 参考訳(メタデータ) (2023-01-03T12:20:51Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering [27.38981906033932]
Outside-Knowledge Visual Question Answering (OK-VQA) システムは、まず外部知識を取得して回答を予測する2段階のフレームワークを使用している。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
本稿では,より具体的な知識を得るのに役立つ質問関連エンティティを識別し,トレーニング中のより強力な監視を提供するEntity-Focused Retrieval(EnFoRe)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-18T21:39:24Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。