論文の概要: Class-Aware Visual Prompt Tuning for Vision-Language Pre-Trained Model
- arxiv url: http://arxiv.org/abs/2208.08340v1
- Date: Wed, 17 Aug 2022 15:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:02:45.070053
- Title: Class-Aware Visual Prompt Tuning for Vision-Language Pre-Trained Model
- Title(参考訳): 視覚言語事前学習モデルのためのクラスアウェア視覚プロンプトチューニング
- Authors: Yinghui Xing, Qirui Wu, De Cheng, Shizhou Zhang, Guoqiang Liang,
Yanning Zhang
- Abstract要約: 本稿では,テキストプロンプトと視覚的プロンプトを同時に学習することで,デュアルモーダル・プロンプト・チューニングのパラダイムを提案する。
視覚的プロンプトを対象の視覚概念に集中させるため、クラス認識型視覚プロンプトチューニング(CAVPT)を提案する。
提案手法は,大規模な事前学習型視覚言語モデルをチューニングするための新しいパラダイムを提供する。
- 参考スコア(独自算出の注目度): 38.73758466286501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of large pre-trained vison-language model like CLIP,
transferrable representations can be adapted to a wide range of downstream
tasks via prompt tuning. Prompt tuning tries to probe the beneficial
information for downstream tasks from the general knowledge stored in both the
image and text encoders of the pre-trained vision-language model. A recently
proposed method named Context Optimization (CoOp) introduces a set of learnable
vectors as text prompt from the language side, while tuning the text prompt
alone can not affect the computed visual features of the image encoder, thus
leading to sub-optimal. In this paper, we propose a dual modality prompt tuning
paradigm through learning text prompts and visual prompts for both the text and
image encoder simultaneously. In addition, to make the visual prompt
concentrate more on the target visual concept, we propose Class-Aware Visual
Prompt Tuning (CAVPT), which is generated dynamically by performing the cross
attention between language descriptions of template prompts and visual class
token embeddings. Our method provides a new paradigm for tuning the large
pre-trained vision-language model and extensive experimental results on 8
datasets demonstrate the effectiveness of the proposed method. Our code is
available in the supplementary materials.
- Abstract(参考訳): CLIPのような大規模なトレーニング済みビソン言語モデルが出現すると、転送可能な表現は、プロンプトチューニングを通じて、幅広い下流タスクに適応できる。
プロンプトチューニングは、事前訓練された視覚言語モデルの画像とテキストエンコーダに格納された一般的な知識から下流タスクの有益な情報を調べる。
最近提案されたContext Optimization (CoOp) は、言語側からのテキストプロンプトとして学習可能なベクトルのセットを導入し、一方、テキストプロンプトのみをチューニングしても、画像エンコーダの計算された視覚的特徴に影響を与えず、サブ最適となる。
本稿では,テキストプロンプトと画像エンコーダの視覚的プロンプトを同時に学習することにより,2つのモード性プロンプトチューニングパラダイムを提案する。
さらに,視覚的プロンプトを対象の視覚的概念に集中させるため,テンプレートプロンプトの言語記述と視覚的クラストークンの埋め込みを相互に関連付けて動的に生成するクラス認識型ビジュアルプロンプトチューニング(CAVPT)を提案する。
提案手法は,大規模な事前学習型視覚言語モデルをチューニングするための新しいパラダイムを提供し,提案手法の有効性を示す。
私たちのコードは補足資料で利用可能です。
関連論文リスト
- TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-03T12:23:33Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。