論文の概要: Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts
- arxiv url: http://arxiv.org/abs/2307.11661v1
- Date: Fri, 21 Jul 2023 15:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 11:51:51.581131
- Title: Enhancing CLIP with GPT-4: Harnessing Visual Descriptions as Prompts
- Title(参考訳): GPT-4によるCLIPの強化: プロンプトとしての視覚記述の調和
- Authors: Mayug Maniparambil, Chris Vorster, Derek Molloy, Noel Murphy, Kevin
McGuinness, Noel E. O'Connor
- Abstract要約: GPT-4は視覚的に記述可能なテキストを生成するために使用できる。
特殊な微細なデータセットに対して,0ショット転送精度が大幅に向上したことを示す。
受け入れ次第、コード、プロンプト、補助的なテキストデータセットをリリースします。
- 参考スコア(独自算出の注目度): 13.486599520658919
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive pretrained large Vision-Language Models (VLMs) like CLIP have
revolutionized visual representation learning by providing good performance on
downstream datasets. VLMs are 0-shot adapted to a downstream dataset by
designing prompts that are relevant to the dataset. Such prompt engineering
makes use of domain expertise and a validation dataset. Meanwhile, recent
developments in generative pretrained models like GPT-4 mean they can be used
as advanced internet search tools. They can also be manipulated to provide
visual information in any structure. In this work, we show that GPT-4 can be
used to generate text that is visually descriptive and how this can be used to
adapt CLIP to downstream tasks. We show considerable improvements in 0-shot
transfer accuracy on specialized fine-grained datasets like EuroSAT (~7%), DTD
(~7%), SUN397 (~4.6%), and CUB (~3.3%) when compared to CLIP's default prompt.
We also design a simple few-shot adapter that learns to choose the best
possible sentences to construct generalizable classifiers that outperform the
recently proposed CoCoOP by ~2% on average and by over 4% on 4 specialized
fine-grained datasets. We will release the code, prompts, and auxiliary text
dataset upon acceptance.
- Abstract(参考訳): 対照的に、CLIPのような大きなVLM(Vision-Language Model)は、下流データセットで優れたパフォーマンスを提供することで、視覚表現学習に革命をもたらした。
VLMは、データセットに関連するプロンプトを設計することで、下流データセットに0ショットで適合する。
このような迅速なエンジニアリングはドメインの専門知識と検証データセットを利用する。
一方、gpt-4のような生成前訓練モデルの最近の開発は、高度なインターネット検索ツールとして使用できることを意味する。
また、どんな構造でも視覚情報を提供するために操作することもできる。
本稿では,GPT-4を用いて視覚的に記述可能なテキストを生成し,CLIPを下流タスクに適応させる方法について述べる。
我々は、CLIPのデフォルトプロンプトと比較して、EuroSAT (~7%)、DTD (~7%)、SUN397 (~4.6%)、CUB (~3.3%)のような特殊な細粒度データセットの0ショット転送精度を大幅に改善したことを示す。
また,提案するcocoopを平均で約2%上回り,4つの特殊細粒度データセットで4%以上上回る汎用分類器を構築するために,最善の文を選択できる簡単な数ショットアダプタも設計した。
受け入れ次第、コード、プロンプト、補助的なテキストデータセットをリリースします。
関連論文リスト
- Is C4 Dataset Optimal for Pruning? An Investigation of Calibration Data for LLM Pruning [56.795078085234195]
LLMプルーニングのアプローチは、プルーニングスコアを計算するためのキャリブレーションデータとして、C4データセットに依存している。
本研究では, LLMプルーニングにおけるキャリブレーションデータの選択を, 幅広いデータセットで評価する。
私たちの結果は、微妙でしばしば予期せぬ発見もいくつか見つけました。
論文 参考訳(メタデータ) (2024-10-09T22:00:19Z) - Prompt4Vis: Prompting Large Language Models with Example Mining and
Schema Filtering for Tabular Data Visualization [13.425454489560376]
本稿では,自然言語からデータビジュアライゼーションクエリを生成するフレームワークであるPrompt4Visを紹介する。
データビジュアライゼーションクエリを生成するためのテキスト・ツー・ビジュアリーに、インコンテキスト・ラーニングが導入される。
Prompt4Visは最先端(SOTA)のRGVisNetを約35.9%、開発とテストセットで71.3%上回っている。
論文 参考訳(メタデータ) (2024-01-29T10:23:47Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。