論文の概要: Find The Gap: Knowledge Base Reasoning For Visual Question Answering
- arxiv url: http://arxiv.org/abs/2404.10226v1
- Date: Tue, 16 Apr 2024 02:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:22:10.636630
- Title: Find The Gap: Knowledge Base Reasoning For Visual Question Answering
- Title(参考訳): Find the Gap:ビジュアル質問応答のための知識ベース推論
- Authors: Elham J. Barezi, Parisa Kordjamshidi,
- Abstract要約: 我々は、知識に基づく視覚的質問応答の分析を行い、その答えが与えられた場合、モデルがそれを視覚的モダリティに根ざす必要がある。
本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。
以上の結果から,LLMは1ホップの推論では強いが,細調整NNモデルと比較して2ホップの推論に苦しむことが明らかとなった。
- 参考スコア(独自算出の注目度): 19.6585442152102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze knowledge-based visual question answering, for which given a question, the models need to ground it into the visual modality and retrieve the relevant knowledge from a given large knowledge base (KB) to be able to answer. Our analysis has two folds, one based on designing neural architectures and training them from scratch, and another based on large pre-trained language models (LLMs). Our research questions are: 1) Can we effectively augment models by explicit supervised retrieval of the relevant KB information to solve the KB-VQA problem? 2) How do task-specific and LLM-based models perform in the integration of visual and external knowledge, and multi-hop reasoning over both sources of information? 3) Is the implicit knowledge of LLMs sufficient for KB-VQA and to what extent it can replace the explicit KB? Our results demonstrate the positive impact of empowering task-specific and LLM models with supervised external and visual knowledge retrieval models. Our findings show that though LLMs are stronger in 1-hop reasoning, they suffer in 2-hop reasoning in comparison with our fine-tuned NN model even if the relevant information from both modalities is available to the model. Moreover, we observed that LLM models outperform the NN model for KB-related questions which confirms the effectiveness of implicit knowledge in LLMs however, they do not alleviate the need for external KB.
- Abstract(参考訳): 我々は、知識に基づく視覚的質問応答の分析を行い、与えられた質問に対して、モデルがそれを視覚的モダリティに根ざし、与えられた大きな知識ベース(KB)から関連する知識を取り出す必要がある。
我々の分析には2つの折り畳みがあり、1つはニューラルアーキテクチャを設計し、それらをスクラッチからトレーニングし、もう1つは大規模事前学習言語モデル(LLM)に基づく。
私たちの研究の質問は以下のとおりです。
1) KB-VQA問題を解決するために, 関連KB情報の明示的な教師付き検索により, 効果的にモデルを拡張できるか?
2)視覚・外的知識の統合や情報ソース間のマルチホップ推論において,タスク固有モデルとLCMベースモデルはどのように機能するか。
3) LLM の暗黙的知識は KB-VQA に十分で、明示的な KB を置き換えることができる程度に十分か?
本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。
以上の結果から,LLMは1ホップの推論では強いが,2ホップの推論では2ホップの推論に苦しむことが明らかとなった。
さらに, LLMモデルでは, LLMにおける暗黙的知識の有効性を検証した KB 関連質問に対して, NN モデルよりも優れており, 外部KB の必要性は軽減されない。
関連論文リスト
- Can Language Models Act as Knowledge Bases at Scale? [24.99538360485476]
大規模言語モデル(LLM)は、複雑なクエリに対する応答の理解と生成に顕著な習熟性を示している。
本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模知識を効果的に保存し,リコールし,理性を持つことができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-02-22T04:20:14Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - Empowering Language Models with Knowledge Graph Reasoning for Question
Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。
OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。
クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-15T18:26:26Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。
具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文 参考訳(メタデータ) (2022-09-17T08:48:50Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。