論文の概要: PromptCap: Prompt-Guided Task-Aware Image Captioning
- arxiv url: http://arxiv.org/abs/2211.09699v1
- Date: Tue, 15 Nov 2022 19:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:16:45.128989
- Title: PromptCap: Prompt-Guided Task-Aware Image Captioning
- Title(参考訳): promptcap:プロンプトガイド付きタスクアウェア画像キャプション
- Authors: Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo
Luo
- Abstract要約: 本稿では,生成したキャプションの内容を自然言語で制御するキャプションモデルであるPromptCapを提案する。
PromptCapは、さまざまな視覚的質問応答タスクにおいて、一般的なキャプションを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 111.75882701346866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning aims to describe an image with a natural language sentence,
allowing powerful language models to understand images. The framework of
combining image captioning with language models has been successful on various
vision-language tasks. However, an image contains much more information than a
single sentence, leading to underspecification of which visual entities should
be described in the caption sentence. For example, when performing visual
questioning answering (VQA), generic image captions often miss visual details
that are essential for the language model to answer correctly. To address this
challenge, we propose PromptCap, a captioning model that takes a
natural-language prompt to control the contents of the generated caption. The
prompt contains a question that the caption should help to answer, and also
supports taking auxiliary text inputs such as scene text within the image
itself. To finetune a general image caption model for prompt-guided captioning,
we propose a pipeline to synthesize and filter training examples with GPT-3 and
existing VQA datasets. For evaluation, we start with an existing pipeline in
which a language model is prompted with image captions to carry out VQA. With
the same language model, a higher QA accuracy shows that our generated captions
are more relevant to the question prompts. PromptCap outperforms generic
captions by a large margin on a variety of VQA tasks and achieves the
state-of-the-art accuracy of 58.8 % on OK-VQA and 58.0 % on A-OKVQA. Zero-shot
experiments on WebQA show that PromptCap generalizes well to unseen domains.
- Abstract(参考訳): 画像キャプションは、自然言語文で画像を記述することを目的としており、強力な言語モデルで画像を理解することができる。
画像キャプションと言語モデルを組み合わせるフレームワークは、様々な視覚言語タスクで成功している。
しかし、画像は1つの文よりもはるかに多くの情報を含んでいるため、どの視覚的実体をキャプション文で記述すべきかが不明確になる。
例えば、視覚質問応答(VQA)を行う場合、一般的な画像キャプションは、言語モデルが正しく答えるために必要な視覚的詳細を見逃すことが多い。
そこで本研究では,自然言語プロンプトを用いて生成キャプションの内容を制御するキャプションモデルであるpromptcapを提案する。
プロンプトには、キャプションが答えの助けとなるべき質問が含まれており、画像内のシーンテキストのような補助的なテキスト入力もサポートする。
そこで本研究では,gpt-3と既存のvqaデータセットを用いて,訓練例を合成・フィルタリングするパイプラインを提案する。
評価のために、VQAを実行するために、画像キャプションで言語モデルを誘導する既存のパイプラインから始める。
同じ言語モデルでは、より高いQA精度で、生成したキャプションが質問プロンプトに関連があることが示される。
PromptCapは様々なVQAタスクにおいて一般的なキャプションよりも優れており、OK-VQAでは58.8%、A-OKVQAでは58.0%である。
WebQAでのゼロショット実験は、PromptCapが見えないドメインによく一般化していることを示している。
関連論文リスト
- SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - FlexCap: Generating Rich, Localized, and Flexible Captions in Images [54.796523366320486]
可変長の領域固有記述を生成できる多機能な$textitflexible-captioning$ Vision-Language Model(VLM)を導入する。
モデルであるFlexCapは、入力バウンディングボックスのための長さ条件付きキャプションを生成するように訓練されている。
これにより、簡潔なオブジェクトラベルから詳細なキャプションまで、その出力の情報密度を制御できる。
論文 参考訳(メタデータ) (2024-03-18T17:57:02Z) - Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme
Detection [17.182722268446604]
本稿では,PVLMをゼロショット視覚質問応答(VQA)方式で活用するための探索型キャプション手法を提案する。
具体的には、ヘイトなコンテンツ関連質問をし、その回答を画像キャプションとして用いることで、凍結PVLMを誘導する。
Pro-Capを用いた3つのベンチマークによるモデルの性能評価により,提案手法の有効性と一般化が検証された。
論文 参考訳(メタデータ) (2023-08-16T01:38:49Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。
まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。
PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文 参考訳(メタデータ) (2021-09-10T17:51:06Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。