論文の概要: Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering
- arxiv url: http://arxiv.org/abs/2404.13947v3
- Date: Tue, 08 Oct 2024 07:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:46.710194
- Title: Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering
- Title(参考訳): 知識選択と質問応答のための自己起動型ビジュアルランゲージモデル
- Authors: Dongze Hao, Qunbo Wang, Longteng Guo, Jie Jiang, Jing Liu,
- Abstract要約: 私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。
DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。
本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.183845003492964
- License:
- Abstract: While large visual-language models (LVLM) have shown promising results on traditional visual question answering benchmarks, it is still challenging for them to answer complex VQA problems which requires diverse world knowledge. Motivated by the research of retrieval-augmented generation in the field of natural language processing, we use Dense Passage Retrieval (DPR) to retrieve related knowledge to help the model answer questions. However, DPR conduct retrieving in natural language space, which may not ensure comprehensive acquisition of image information. Thus, the retrieved knowledge is not truly conducive to helping answer the question, affecting the performance of the overall system. To address this issue, we propose a novel framework that leverages the visual-language model to select the key knowledge retrieved by DPR and answer questions. The framework consists of two modules: Selector and Answerer, where both are initialized by the LVLM and parameter-efficiently finetuned by self-bootstrapping: find key knowledge in the retrieved knowledge documents using the Selector, and then use them to finetune the Answerer to predict answers; obtain the pseudo-labels of key knowledge documents based on the predictions of the Answerer and weak supervision labels, and then finetune the Selector to select key knowledge; repeat. Our framework significantly enhances the performance of the baseline on the challenging open-domain Knowledge-based VQA benchmark, OK-VQA, achieving a state-of-the-art accuracy of 62.83%. Our code is publicly available at https://github.com/haodongze/Self-KSel-QAns.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、従来の視覚的質問応答ベンチマークにおいて有望な結果を示しているが、多種多様な世界知識を必要とする複雑なVQA問題に答えることは依然として困難である。
自然言語処理の分野での検索強化生成の研究に動機付けられ,Dense Passage Retrieval (DPR) を用いて関連する知識を検索し,モデルが疑問に答える手助けをする。
しかし、DPRは自然言語空間における検索を行うため、画像情報の総合的な取得は保証されない可能性がある。
したがって、検索した知識は、システム全体の性能に影響を及ぼすことなく、その質問に答えるのに役立っているわけではない。
この問題に対処するために,視覚言語モデルを利用してDPRが検索した重要な知識を選択し,質問に答える新しいフレームワークを提案する。
Selector と Answerer は2つのモジュールから構成される: Selector と Answerer は LVLM によって初期化され、自己ブートストラップによってパラメータ非効率に微調整される: Selector を使って検索した知識文書のキー知識を見つけ、Answerer を微調整して回答を予測する。
我々のフレームワークは、挑戦的なオープンドメイン知識ベースのVQAベンチマークOK-VQAのベースラインの性能を大幅に向上させ、62.83%の最先端精度を実現した。
私たちのコードはhttps://github.com/haodongze/Self-KSel-QAns.comで公開されています。
関連論文リスト
- Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models [19.85526116658481]
本稿では,新規かつ簡易な生成検索KBQAフレームワークであるChatKBQAを紹介する。
実験の結果,ChatKBQAは標準KBQAデータセット上で新たな最先端性能を実現することがわかった。
この研究は、LLMと知識グラフを組み合わせるための新しいパラダイムとして、解釈可能および知識要求型質問応答のパラダイムと見なすこともできる。
論文 参考訳(メタデータ) (2023-10-13T09:45:14Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Improving Commonsense Question Answering by Graph-based Iterative
Retrieval over Multiple Knowledge Sources [26.256653692882715]
疑問に答えるシステムにおいて、コモンセンスを効果的に活用する方法はまだ検討中である。
本研究では,ConceptNet,Wikipedia,Cambridge Dictionaryを統合した質問応答手法を提案する。
学習済みの言語モデルを用いて、質問を符号化し、知識と選択を検索し、回答の選択を意識した注意機構を提案する。
論文 参考訳(メタデータ) (2020-11-05T08:50:43Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。