論文の概要: PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3
- arxiv url: http://arxiv.org/abs/2211.09699v2
- Date: Tue, 21 Mar 2023 12:10:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:08:27.309380
- Title: PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3
- Title(参考訳): PromptCap: GPT-3によるVQA用Prompt-Guided Image Captioning
- Authors: Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo
Luo
- Abstract要約: 本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
- 参考スコア(独自算出の注目度): 111.75882701346866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-based visual question answering (VQA) involves questions that
require world knowledge beyond the image to yield the correct answer. Large
language models (LMs) like GPT-3 are particularly helpful for this task because
of their strong knowledge retrieval and reasoning capabilities. To enable LM to
understand images, prior work uses a captioning model to convert images into
text. However, when summarizing an image in a single caption sentence, which
visual entities to describe are often underspecified. Generic image captions
often miss visual details essential for the LM to answer visual questions
correctly. To address this challenge, we propose PromptCap (Prompt-guided image
Captioning), a captioning model designed to serve as a better connector between
images and black-box LMs. Different from generic captions, PromptCap takes a
natural-language prompt to control the visual entities to describe in the
generated caption. The prompt contains a question that the caption should aid
in answering. To avoid extra annotation, PromptCap is trained by examples
synthesized with GPT-3 and existing datasets. We demonstrate PromptCap's
effectiveness on an existing pipeline in which GPT-3 is prompted with image
captions to carry out VQA. PromptCap outperforms generic captions by a large
margin and achieves state-of-the-art accuracy on knowledge-based VQA tasks
(60.4% on OK-VQA and 59.6% on A-OKVQA). Zero-shot results on WebQA show that
PromptCap generalizes well to unseen domains.
- Abstract(参考訳): 知識に基づく視覚的質問応答(VQA)は、正しい回答を得るために、画像以外の世界の知識を必要とする質問を含む。
GPT-3のような大規模言語モデル(LM)は、強力な知識検索と推論能力のため、このタスクに特に有用である。
LMが画像を理解するために、以前の作業ではキャプションモデルを使用して画像をテキストに変換する。
しかし、説明すべき視覚的実体である一文のイメージを要約する場合は、しばしば不明確である。
ジェネリックイメージキャプションは、視覚的な疑問に正しく答えるために、LMに必要な視覚的詳細を見逃すことが多い。
この課題に対処するために,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCap(Prompt-Guided Image Captioning)を提案する。
一般的なキャプションとは異なり、PromptCapは、生成したキャプションで記述される視覚エンティティを制御するために自然言語プロンプトを使用する。
プロンプトには、キャプションが回答を助けるべきだという質問が含まれている。
追加のアノテーションを避けるため、PromptCapはGPT-3と既存のデータセットで合成された例によって訓練されている。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
PromptCapは一般的なキャプションを大きなマージンで上回り、知識ベースのVQAタスク(OK-VQAは60.4%、A-OKVQAは59.6%)で最先端の精度を達成する。
WebQAのゼロショットの結果は、PromptCapが見えないドメインによく一般化していることを示している。
関連論文リスト
- SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - FlexCap: Generating Rich, Localized, and Flexible Captions in Images [54.796523366320486]
可変長の領域固有記述を生成できる多機能な$textitflexible-captioning$ Vision-Language Model(VLM)を導入する。
モデルであるFlexCapは、入力バウンディングボックスのための長さ条件付きキャプションを生成するように訓練されている。
これにより、簡潔なオブジェクトラベルから詳細なキャプションまで、その出力の情報密度を制御できる。
論文 参考訳(メタデータ) (2024-03-18T17:57:02Z) - Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme
Detection [17.182722268446604]
本稿では,PVLMをゼロショット視覚質問応答(VQA)方式で活用するための探索型キャプション手法を提案する。
具体的には、ヘイトなコンテンツ関連質問をし、その回答を画像キャプションとして用いることで、凍結PVLMを誘導する。
Pro-Capを用いた3つのベンチマークによるモデルの性能評価により,提案手法の有効性と一般化が検証された。
論文 参考訳(メタデータ) (2023-08-16T01:38:49Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。
まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。
PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文 参考訳(メタデータ) (2021-09-10T17:51:06Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。