論文の概要: Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts
- arxiv url: http://arxiv.org/abs/2311.09050v1
- Date: Wed, 15 Nov 2023 15:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:33:45.862202
- Title: Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts
- Title(参考訳): 大規模言語モデルによるゼロショット視覚的質問応答の改善
- Authors: Yunshi Lan, Xiang Li, Xin Liu, Yang Li, Wei Qin and Weining Qian
- Abstract要約: 本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
- 参考スコア(独自算出の注目度): 22.669502403623166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Visual Question Answering (VQA) is a prominent vision-language task
that examines both the visual and textual understanding capability of systems
in the absence of training data. Recently, by converting the images into
captions, information across multi-modalities is bridged and Large Language
Models (LLMs) can apply their strong zero-shot generalization capability to
unseen questions. To design ideal prompts for solving VQA via LLMs, several
studies have explored different strategies to select or generate
question-answer pairs as the exemplar prompts, which guide LLMs to answer the
current questions effectively. However, they totally ignore the role of
question prompts. The original questions in VQA tasks usually encounter
ellipses and ambiguity which require intermediate reasoning. To this end, we
present Reasoning Question Prompts for VQA tasks, which can further activate
the potential of LLMs in zero-shot scenarios. Specifically, for each question,
we first generate self-contained questions as reasoning question prompts via an
unsupervised question edition module considering sentence fluency, semantic
integrity and syntactic invariance. Each reasoning question prompt clearly
indicates the intent of the original question. This results in a set of
candidate answers. Then, the candidate answers associated with their confidence
scores acting as answer heuristics are fed into LLMs and produce the final
answer. We evaluate reasoning question prompts on three VQA challenges,
experimental results demonstrate that they can significantly improve the
results of LLMs on zero-shot setting and outperform existing state-of-the-art
zero-shot methods on three out of four data sets. Our source code is publicly
released at \url{https://github.com/ECNU-DASE-NLP/RQP}.
- Abstract(参考訳): ゼロショット視覚質問応答(Zero-shot Visual Question Answering, VQA)は、訓練データがない場合のシステムの視覚的およびテキスト的理解能力を調べる視覚言語タスクである。
近年,画像をキャプションに変換することで,複数のモダリティにまたがる情報を橋渡しし,Large Language Models (LLMs) の強力なゼロショット一般化能力を疑問視できる。
llmsを介してvqaを解決するための理想的なプロンプトを設計するために、いくつかの研究は、質問と回答のペアを選択または生成するための異なる戦略を検討してきた。
しかし、質問プロンプトの役割を完全に無視する。
VQAタスクの最初の質問は通常、中間的推論を必要とする楕円と曖昧さに遭遇する。
この目的のために、ゼロショットシナリオにおけるLLMの可能性をさらに活性化できるVQAタスクに対する推論質問応答を提案する。
具体的には,各質問に対して,文の流動性,意味的完全性,構文的不変性を考慮した教師なし質問版モジュールを用いて,質問プロンプトとして自己完結型質問を生成する。
各推論質問は、元の質問の意図を明確に示す。
この結果、一連の回答が得られた。
そして、回答ヒューリスティックとして機能する信頼スコアに関連する候補回答をLSMに入力し、最終回答を生成する。
我々は,3つのVQA課題に対する推論質問のプロンプトを評価し,実験結果から,ゼロショット設定におけるLCMの結果を大幅に改善し,既存の最先端ゼロショット手法を4つのデータセットのうち3つで上回ることを示す。
ソースコードは \url{https://github.com/ECNU-DASE-NLP/RQP} で公開されています。
関連論文リスト
- Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文 参考訳(メタデータ) (2024-10-12T08:17:03Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-of-Discussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - Enhancing Answer Selection in Community Question Answering with
Pre-trained and Large Language Models [0.9065034043031668]
まず,質問応答型クロスアテンションネットワーク(QAN)を提案する。
次に,大規模言語モデル(LLM)を用いて,知識拡張による回答選択を行う。
実験の結果、QANモデルが2つのデータセット、SemEval2015とSemEval 2017の最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-11-29T10:24:50Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [45.88079503965459]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。