論文の概要: Unsupervised Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2204.03649v1
- Date: Thu, 7 Apr 2022 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:58:58.594876
- Title: Unsupervised Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための教師なしプロンプト学習
- Authors: Tony Huang, Jack Chu, Fangyun Wei
- Abstract要約: 本稿では、CLIPのような視覚言語モデルのゼロショット転送を改善するために、教師なしプロンプトラーニング(UPL)フレームワークを提案する。
UPLの強化バージョンは、ほとんどのデータセットで8ショットのCoOpと8ショットのTIP-Adapterと同等である。
- 参考スコア(独自算出の注目度): 12.259694415428026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive vision-language models like CLIP have shown great progress in
zero-shot transfer learning. This new paradigm uses large-scale image-text
pairs for training and aligns images and texts in a common embedding space. In
the inference stage, the proper text description, known as prompt, needs to be
carefully designed for zero-shot transfer. To avoid laborious prompt
engineering and simultaneously improve transfer performance, recent works such
as CoOp, CLIP-Adapter and Tip-Adapter propose to adapt vision-language models
for downstream image recognition tasks by either optimizing the continuous
prompt representations or training an additional adapter network on top of the
pre-trained vision-language models on a small set of labeled data. Though
promising improvements are achieved, using labeled images from target datasets
may violate the intention of zero-shot transfer of pre-trained vision-language
models. In this paper, we propose an unsupervised prompt learning (UPL)
framework, which does not require any annotations of the target dataset, to
improve the zero-shot transfer of CLIP-like vision-language models.
Experimentally, for zero-shot transfer, our UPL outperforms original CLIP with
prompt engineering and on ImageNet as well as other 10 datasets. An enhanced
version of UPL is even on par with the 8-shot CoOp and the 8-shot TIP-Adapter
on most datasets while our method does not need any labeled images for
training. Code and models are available at
https://github.com/tonyhuang2022/UPL.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、ゼロショット転送学習において大きな進歩を見せている。
この新しいパラダイムは、画像とテキストを共通の埋め込み空間でトレーニングし調整するために、大規模な画像テキストペアを使用する。
推論段階では、プロンプトとして知られる適切なテキスト記述をゼロショット転送のために慎重に設計する必要がある。
CoOp、CLIP-Adapter、Tip-Adapterといった最近の研究は、繰り返しプロンプト表現を最適化するか、ラベル付きデータの小さなセットで事前訓練されたビジョン言語モデルの上に追加のアダプタネットワークをトレーニングすることで、下流の画像認識タスクに視覚言語モデルを適用することを提案する。
有望な改善は達成されるが、ターゲットデータセットからのラベル付きイメージを使用することは、事前訓練された視覚言語モデルのゼロショット転送の意図に違反する可能性がある。
本稿では、CLIPに似た視覚言語モデルのゼロショット転送を改善するために、ターゲットデータセットのアノテーションを必要としない教師なしプロンプトラーニング(UPL)フレームワークを提案する。
実験では、ゼロショット転送では、UPLは、プロンプトエンジニアリングやImageNet、その他の10のデータセットで、オリジナルのCLIPよりも優れています。
uplの拡張バージョンは、ほとんどのデータセットで8ショットのcoopと8ショットのティップアダプタと同等ですが、トレーニングのためにラベル付きイメージは不要です。
コードとモデルはhttps://github.com/tonyhuang2022/uplで入手できる。
関連論文リスト
- Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。