論文の概要: Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models
- arxiv url: http://arxiv.org/abs/2407.15346v1
- Date: Mon, 22 Jul 2024 03:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:20:27.997256
- Title: Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた知識に基づく視覚的質問応答のための知識獲得ディスタングル
- Authors: Wenbin An, Feng Tian, Jiahao Nie, Wenkai Shi, Haonan Lin, Yan Chen, QianYing Wang, Yaqiang Wu, Guang Dai, Ping Chen,
- Abstract要約: KVQA (Knowledge-based Visual Question Answering) は、質問に答えるために、画像と世界の両方の知識を必要とする。
現在の手法は、まず最初に元の複雑な質問で画像と外部知識ベースから知識を取得し、次にLarge Language Models (LLM)で回答を生成する。
DKA: LLMフィードバックからの解答知識獲得(DKA: Disentangled Knowledge Acquisition)を提案する。
- 参考スコア(独自算出の注目度): 10.526705722339775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KVQA) requires both image and world knowledge to answer questions. Current methods first retrieve knowledge from the image and external knowledge base with the original complex question, then generate answers with Large Language Models (LLMs). However, since the original question contains complex elements that require knowledge from different sources, acquiring different kinds of knowledge in a coupled manner may confuse models and hinder them from retrieving precise knowledge. Furthermore, the ``forward-only'' answering process fails to explicitly capture the knowledge needs of LLMs, which can further hurt answering quality. To cope with the above limitations, we propose DKA: Disentangled Knowledge Acquisition from LLM feedback, a training-free framework that disentangles knowledge acquisition to avoid confusion and uses LLM's feedback to specify the required knowledge. Specifically, DKA requires LLMs to specify what knowledge they need to answer the question and decompose the original complex question into two simple sub-questions: Image-based sub-question and Knowledge-based sub-question. Then we use the two sub-questions to retrieve knowledge from the image and knowledge base, respectively. In this way, two knowledge acquisition models can focus on the content that corresponds to them and avoid disturbance of irrelevant elements in the original complex question, which can help to provide more precise knowledge and better align the knowledge needs of LLMs to yield correct answers. Experiments on benchmark datasets show that DKA significantly outperforms SOTA models. To facilitate future research, our data and code are available at \url{https://github.com/Lackel/DKA}.
- Abstract(参考訳): KVQA (Knowledge-based Visual Question Answering) は、質問に答えるために、画像と世界の両方の知識を必要とする。
現在の手法は、まず最初に元の複雑な質問で画像と外部知識ベースから知識を取得し、次にLarge Language Models (LLMs) を用いて回答を生成する。
しかし、元の質問には異なる情報源からの知識を必要とする複雑な要素が含まれているため、異なる種類の知識を結合的に取得することは、モデルを混乱させ、正確な知識を得るのを妨げる可能性がある。
さらに、 `forward-only' の回答プロセスは LLM の知識要求を明示的に把握することができないため、回答の品質をさらに損なう可能性がある。
上記の制限に対処するため、我々はDKAを提案する: LLMフィードバックからの解答知識獲得(Disentangled Knowledge Acquisition)。
具体的には、DKAはLLMに対して、疑問に答えるために必要な知識を指定し、元の複雑な質問を2つの単純なサブクエストに分解する:イメージベースのサブクエストとナレッジベースのサブクエストである。
次に,2つのサブクエストを用いて,画像と知識ベースからそれぞれ知識を検索する。
このように、2つの知識獲得モデルは、それらに対応する内容に焦点を合わせ、元の複雑な問題における無関係な要素の乱れを回避し、より正確な知識を提供し、LLMの知識要求をより良く整合させて正しい回答を得るのに役立つ。
ベンチマークデータセットの実験では、DKAはSOTAモデルよりも大幅に優れていた。
将来の研究を促進するため、我々のデータとコードは \url{https://github.com/Lackel/DKA} で入手できる。
関連論文リスト
- Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - GeReA: Question-Aware Prompt Captions for Knowledge-based Visual
Question Answering [37.11794716736831]
マルチモーダルな大言語モデル(MLLM)は,視覚的理解能力に優れる大規模言語モデル(LLM)よりも暗黙的な知識エンジンである,と我々は主張する。
InstructBLIPのようなMLLMに問題のある視覚と言語情報を与え、知識関連記述を生成するジェネレーション・レアソン・フレームワークであるGeReAを提案する。
具体的には、質問関連画像領域と質問特化マニュアルプロンプトをMLLMに符号化し、知識関連記述を生成する。
論文 参考訳(メタデータ) (2024-02-04T14:28:23Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。
具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文 参考訳(メタデータ) (2022-09-17T08:48:50Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。