論文の概要: ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched
Visual Descriptions
- arxiv url: http://arxiv.org/abs/2303.06594v1
- Date: Sun, 12 Mar 2023 07:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 17:54:12.045994
- Title: ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched
Visual Descriptions
- Title(参考訳): ChatGPT Asks, BLIP-2 Answers: リッチなビジュアル記述に向けた自動質問
- Authors: Deyao Zhu, Jun Chen, Kilichbek Haydarov, Xiaoqian Shen, Wenxuan Zhang,
Mohamed Elhoseiny
- Abstract要約: 本稿では,画像キャプションに展開する新しい自動検索手法ChatCaptionerを紹介する。
BLIP-2の回答から新たな視覚情報を取得することで、ChatCaptionerはよりリッチな画像記述を生成することができる。
以上の結果から,ChatCaptionerの字幕は,最も画像情報を提供するために,人間の評価者から3倍の票を受け取っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 28.793954977104306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Asking insightful questions is crucial for acquiring knowledge and expanding
our understanding of the world. However, the importance of questioning has been
largely overlooked in AI research, where models have been primarily developed
to answer questions. With the recent advancements of large language models
(LLMs) like ChatGPT, we discover their capability to ask high-quality questions
when provided with a suitable prompt. This discovery presents a new opportunity
to develop an automatic questioning system. In this paper, we introduce
ChatCaptioner, a novel automatic-questioning method deployed in image
captioning. Here, ChatGPT is prompted to ask a series of informative questions
about images to BLIP-2, a strong vision question-answering model. By keeping
acquiring new visual information from BLIP-2's answers, ChatCaptioner is able
to generate more enriched image descriptions. We conduct human-subject
evaluations on common image caption datasets such as COCO, Conceptual Caption,
and WikiArt, and compare ChatCaptioner with BLIP-2 as well as ground truth. Our
results demonstrate that ChatCaptioner's captions are significantly more
informative, receiving three times as many votes from human evaluators for
providing the most image information. Besides, ChatCaptioner identifies 53%
more objects within the image than BLIP-2 alone measured by WordNet synset
matching. Code is available at https://github.com/Vision-CAIR/ChatCaptioner
- Abstract(参考訳): 洞察力のある質問は、知識の獲得と世界の理解の拡大に不可欠です。
しかし、質問の重要性はAI研究においてほとんど見過ごされ、モデルは主に質問に答えるために開発された。
ChatGPTのような大規模言語モデル(LLM)の最近の進歩により、適切なプロンプトが提供されると、高品質な質問を行う能力が発見された。
この発見は、自動質問システムを開発する新しい機会を与える。
本稿では,画像キャプションに展開する新しい自動検索手法であるchatcaptionerを提案する。
ここでChatGPTは、強い視覚的質問応答モデルであるBLIP-2に画像に関する一連の情報的質問をするよう促される。
BLIP-2の回答から新たな視覚情報を取得することで、ChatCaptionerはよりリッチな画像記述を生成することができる。
我々は,COCO,Conceptual Caption,WikiArtなどのイメージキャプションデータセットを用いた人体評価を行い,ChatCaptionerとBLIP-2を比較した。
以上の結果から,ChatCaptionerの字幕は,最も画像情報を提供するために,人間の評価者から3倍の票を得た。
さらにChatCaptionerは、WordNetシンセットマッチングによって測定されたBLIP-2よりも画像内の53%多くのオブジェクトを識別する。
コードはhttps://github.com/Vision-CAIR/ChatCaptionerで入手できる。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。