Fugu-MT 論文翻訳(概要): Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering

論文の概要: Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering

arxiv url: http://arxiv.org/abs/2303.01903v3
Date: Thu, 14 Dec 2023 02:20:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 05:04:24.981464
Title: Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering
Title（参考訳）: Prophet:知識に基づく視覚質問応答のための補足的回答ヒューリスティックスを用いた大規模言語モデルの提案
Authors: Zhou Yu, Xuecheng Ouyang, Zhenwei Shao, Meng Wang, Jun Yu
Abstract要約: 知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 30.858737348472626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge-based visual question answering (VQA) requires external knowledge beyond the image to answer the question. Early studies retrieve required knowledge from explicit knowledge bases (KBs), which often introduces irrelevant information to the question, hence restricting the performance of their models. Recent works have resorted to using a powerful large language model (LLM) as an implicit knowledge engine to acquire the necessary knowledge for answering. Despite the encouraging results achieved by these methods, we argue that they have not fully activated the capacity of the blind LLM as the provided textual input is insufficient to depict the required visual information to answer the question. In this paper, we present Prophet -- a conceptually simple, flexible, and general framework designed to prompt LLM with answer heuristics for knowledge-based VQA. Specifically, we first train a vanilla VQA model on a specific knowledge-based VQA dataset without external knowledge. After that, we extract two types of complementary answer heuristics from the VQA model: answer candidates and answer-aware examples. Finally, the two types of answer heuristics are jointly encoded into a formatted prompt to facilitate the LLM's understanding of both the image and question, thus generating a more accurate answer. By incorporating the state-of-the-art LLM GPT-3, Prophet significantly outperforms existing state-of-the-art methods on four challenging knowledge-based VQA datasets. To demonstrate the generality of our approach, we instantiate Prophet with the combinations of different VQA models (i.e., both discriminative and generative ones) and different LLMs (i.e., both commercial and open-source ones).
Abstract（参考訳）: 知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。初期の研究では、明示的な知識ベース(KB)から必要な知識を抽出し、しばしば問題に無関係な情報を導入し、モデルの性能を制限する。近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。これらの手法によって得られた奨励的な結果にもかかわらず、提供されたテキスト入力が問題に答えるために必要な視覚情報を記述するのに不十分であるため、視覚的LLMの能力を完全に活性化していないと論じる。本稿では,知識に基づくVQAの解答ヒューリスティックを LLM に促すための,概念的にシンプルで柔軟で汎用的なフレームワークである Prophet を提案する。具体的には、まず、外部知識のない特定の知識に基づくVQAデータセット上でバニラVQAモデルをトレーニングする。その後、VQAモデルから、解答候補と解答認識例の2種類の補解ヒューリスティックを抽出する。最後に、2つのタイプの回答ヒューリスティックが共同でフォーマットされたプロンプトにエンコードされ、llmが画像と質問の両方を理解しやすくすることで、より正確な回答を生成する。最先端のLPM GPT-3を組み込むことで、Prophetは4つの挑戦的な知識ベースのVQAデータセットにおいて、既存の最先端の手法よりも大幅に優れている。このアプローチの一般性を示すため、異なるVQAモデル(識別モデルと生成モデルの両方)と異なるLLM(商用モデルとオープンソースモデルの両方)の組み合わせでProphetをインスタンス化する。

関連論文リスト

Knowledge Acquisition Disentanglement for Knowledge-based Visual Question Answering with Large Language Models [10.526705722339775]
KVQA (Knowledge-based Visual Question Answering) は、質問に答えるために、画像と世界の両方の知識を必要とする。現在の手法は、まず最初に元の複雑な質問で画像と外部知識ベースから知識を取得し、次にLarge Language Models (LLM)で回答を生成する。 DKA: LLMフィードバックからの解答知識獲得(DKA: Disentangled Knowledge Acquisition)を提案する。
論文参考訳（メタデータ） (2024-07-22T03:05:32Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。 DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-22T07:44:20Z)
Knowledge Condensation and Reasoning for Knowledge-based VQA [20.808840633377343]
近年の研究では、外部知識ベースから知識パスを取得し、それを使って質問に答えている。本稿では,知識凝縮モデルと知識推論モデルという2つの相乗的モデルを提案する。本手法は知識に基づくVQAデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-15T06:06:06Z)
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文参考訳（メタデータ） (2024-01-18T14:21:56Z)
Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。 KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文参考訳（メタデータ） (2023-10-12T09:12:50Z)
Empowering Language Models with Knowledge Graph Reasoning for Question Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。 OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文参考訳（メタデータ） (2022-11-15T18:26:26Z)
Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文参考訳（メタデータ） (2022-09-17T08:48:50Z)
GreaseLM: Graph REASoning Enhanced Language Models for Question Answering [159.9645181522436]
GreaseLMは、事前訓練されたLMとグラフニューラルネットワークの符号化された表現を、複数の層にわたるモダリティ相互作用操作で融合する新しいモデルである。 GreaseLMは、状況制約と構造化知識の両方の推論を必要とする問題に、より確実に答えることができる。
論文参考訳（メタデータ） (2022-01-21T19:00:05Z)
KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。知識表現と推論には2つのタイプがあります。まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文参考訳（メタデータ） (2020-12-20T20:13:02Z)
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文参考訳（メタデータ） (2020-12-14T00:33:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。