論文の概要: Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2210.10176v1
- Date: Tue, 18 Oct 2022 21:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:00:22.933013
- Title: Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual
Question Answering
- Title(参考訳): 外部知識の視覚的質問応答に対するエンティティ中心の密閉通路検索
- Authors: Jialin Wu and Raymond J. Mooney
- Abstract要約: Outside-Knowledge Visual Question Answering (OK-VQA) システムは、まず外部知識を取得して回答を予測する2段階のフレームワークを使用している。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
本稿では,より具体的な知識を得るのに役立つ質問関連エンティティを識別し,トレーニング中のより強力な監視を提供するEntity-Focused Retrieval(EnFoRe)モデルを提案する。
- 参考スコア(独自算出の注目度): 27.38981906033932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Outside-Knowledge Visual Question Answering (OK-VQA) systems employ a
two-stage framework that first retrieves external knowledge given the visual
question and then predicts the answer based on the retrieved content. However,
the retrieved knowledge is often inadequate. Retrievals are frequently too
general and fail to cover specific knowledge needed to answer the question.
Also, the naturally available supervision (whether the passage contains the
correct answer) is weak and does not guarantee question relevancy. To address
these issues, we propose an Entity-Focused Retrieval (EnFoRe) model that
provides stronger supervision during training and recognizes question-relevant
entities to help retrieve more specific knowledge. Experiments show that our
EnFoRe model achieves superior retrieval performance on OK-VQA, the currently
largest outside-knowledge VQA dataset. We also combine the retrieved knowledge
with state-of-the-art VQA models, and achieve a new state-of-the-art
performance on OK-VQA.
- Abstract(参考訳): ほとんどの外部知識ビジュアル質問回答(OK-VQA)システムは、2段階のフレームワークを使用して、まず視覚的質問から外部知識を抽出し、検索したコンテンツに基づいて回答を予測する。
しかし、回収された知識はしばしば不十分である。
検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。
また、自然に利用できる監督(パスが正しい回答を含むかどうか)は弱く、質問の関連性を保証しない。
これらの問題に対処するために、トレーニング中のより強力な監視を提供し、より具体的な知識を得るための質問関連エンティティを認識するEntity-Focused Retrieval (EnFoRe)モデルを提案する。
実験の結果,現在最大の外部知識付きVQAデータセットであるOK-VQAでは,EnFoReモデルの方が優れた検索性能が得られることがわかった。
また,得られた知識を最先端VQAモデルと組み合わせ,OK-VQA上での新たな最先端性能を実現する。
関連論文リスト
- Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。
DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。
本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:44:20Z) - Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Retrieval Augmented Visual Question Answering with Outside Knowledge [14.371342370460685]
Outside-Knowledge Visual Question Answering (OK-VQA)は、画像に関する質問に答えるために外部知識の検索を必要とする難しいVQAタスクである。
最近のOK-VQAシステムでは、Dense Passage Retrieval (DPR) を使用して、ウィキペディアのような外部知識ベースから文書を検索するが、回答生成とは別々に訓練されている。
本稿では,対話型DPRと解答生成を統合した共同学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T20:35:58Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。