論文の概要: Knowledge Generation for Zero-shot Knowledge-based VQA
- arxiv url: http://arxiv.org/abs/2402.02541v1
- Date: Sun, 4 Feb 2024 15:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:14:47.237812
- Title: Knowledge Generation for Zero-shot Knowledge-based VQA
- Title(参考訳): ゼロショット知識に基づくVQAのための知識生成
- Authors: Rui Cao and Jing Jiang
- Abstract要約: 知識に基づく視覚的質問応答(K-VQA)に対する従来の解決策は、外部知識ベースから知識を取得し、教師付き学習を用いてK-VQAモデルを訓練する。
我々は、LLMから知識を生成し、K-VQAの知識をゼロショットで組み込む、類似した知識生成ベースのK-VQA法を提案し、テストする。
- 参考スコア(独自算出の注目度): 20.674979268279728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous solutions to knowledge-based visual question answering~(K-VQA)
retrieve knowledge from external knowledge bases and use supervised learning to
train the K-VQA model. Recently pre-trained LLMs have been used as both a
knowledge source and a zero-shot QA model for K-VQA and demonstrated promising
results. However, these recent methods do not explicitly show the knowledge
needed to answer the questions and thus lack interpretability. Inspired by
recent work on knowledge generation from LLMs for text-based QA, in this work
we propose and test a similar knowledge-generation-based K-VQA method, which
first generates knowledge from an LLM and then incorporates the generated
knowledge for K-VQA in a zero-shot manner. We evaluate our method on two K-VQA
benchmarks and found that our method performs better than previous zero-shot
K-VQA methods and our generated knowledge is generally relevant and helpful.
- Abstract(参考訳): K-VQA)は、外部知識ベースから知識を取得し、教師付き学習を用いてK-VQAモデルを訓練する。
近年,K-VQAの知識源およびゼロショットQAモデルとして,事前学習 LLM が用いられている。
しかし、これらの最近の手法は、質問に答えるために必要な知識を明示的に示さないため、解釈可能性に欠ける。
テキストベースのQAのためのLLMからの知識生成に関する最近の研究から着想を得た本研究では、LLMから知識を最初に生成し、K-VQAの知識をゼロショットで組み込んだ、類似の知識生成ベースのK-VQA手法を提案し、検証する。
提案手法を2つのK-VQAベンチマークで評価した結果,従来のゼロショットK-VQA法よりも優れた性能が得られた。
関連論文リスト
- CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering [33.89497991289916]
そこで本研究では,新たな書込み手法であるCoTKRを提案し,推論トレースとそれに対応する知識をインターリーブ方式で生成する。
我々は,様々な知識グラフ質問回答 (KGQA) ベンチマークを用いて,様々な言語モデル (LLM) を用いて実験を行う。
論文 参考訳(メタデータ) (2024-09-29T16:08:45Z) - Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。
本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。
本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T06:06:06Z) - Distinguish Before Answer: Generating Contrastive Explanation as
Knowledge for Commonsense Question Answering [61.53454387743701]
本稿では,概念中心のPrompt-bAsed Contrastive Explanation GenerationモデルであるCPACEを提案する。
CPACEは、得られたシンボル知識を、与えられた候補間の差異をよりよく区別するために、対照的な説明に変換する。
本稿では,CSQA,QASC,OBQAの3つの質問回答データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-14T12:12:24Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - VLC-BERT: Visual Question Answering with Contextualized Commonsense
Knowledge [48.457788853408616]
本稿では,視覚的・テキスト的手がかりとともに,外部の常識知識を生成,選択,符号化する手法を提案する。
VLC-BERTは静的知識ベースを利用した既存モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T22:01:17Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - Incremental Knowledge Based Question Answering [52.041815783025186]
人間と同じように学習能力を段階的に拡張できるインクリメンタルKBQA学習フレームワークを提案します。
具体的には、破滅的な忘れ問題を克服するために、マージン希釈損失と協調選択方法からなる。
包括的な実験は、進化する知識ベースに取り組む際にその効果と効率を示す。
論文 参考訳(メタデータ) (2021-01-18T09:03:38Z) - Benchmarking Knowledge-Enhanced Commonsense Question Answering via
Knowledge-to-Text Transformation [30.38055266965927]
我々は,Commonsense Question Answeringの外部知識を活用することで,どこまで得られるかを検討する。
我々は知識強化型cqaを,単純かつ効果的な知識からテキストへの変換フレームワークを用いてベンチマークする。
実験により、我々の知識とテキストのフレームワークは、commonsenseqaデータセット上で効果的かつ最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-01-04T04:29:03Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。