論文の概要: Texts as Images in Prompt Tuning for Multi-Label Image Recognition
- arxiv url: http://arxiv.org/abs/2211.12739v1
- Date: Wed, 23 Nov 2022 07:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:14:38.565876
- Title: Texts as Images in Prompt Tuning for Multi-Label Image Recognition
- Title(参考訳): マルチラベル画像認識のためのプロンプトチューニングにおける画像としてのテキスト
- Authors: Zixian Guo, Bowen Dong, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng
Zuo
- Abstract要約: 我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 70.9310322461598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning has been employed as an efficient way to adapt large
vision-language pre-trained models (e.g. CLIP) to various downstream tasks in
data-limited or label-limited settings. Nonetheless, visual data (e.g., images)
is by default prerequisite for learning prompts in existing methods. In this
work, we advocate that the effectiveness of image-text contrastive learning in
aligning the two modalities (for training CLIP) further makes it feasible to
treat texts as images for prompt tuning and introduce TaI prompting. In
contrast to the visual data, text descriptions are easy to collect, and their
class labels can be directly derived. Particularly, we apply TaI prompting to
multi-label image recognition, where sentences in the wild serve as
alternatives to images for prompt tuning. Moreover, with TaI, double-grained
prompt tuning (TaI-DPT) is further presented to extract both coarse-grained and
fine-grained embeddings for enhancing the multi-label recognition performance.
Experimental results show that our proposed TaI-DPT outperforms zero-shot CLIP
by a large margin on multiple benchmarks, e.g., MS-COCO, VOC2007, and NUS-WIDE,
while it can be combined with existing methods of prompting from images to
improve recognition performance further. Code is released at
https://github.com/guozix/TaI-DPT.
- Abstract(参考訳): プロンプトチューニングは、データ制限またはラベル制限設定の様々な下流タスクに、大きな視覚言語事前学習モデル(例えばクリップ)を適用する効率的な方法として採用されている。
それでも、ビジュアルデータ(例:画像)は、既存の方法での学習の前提条件である。
本稿では,この2つの様相(トレーニングクリップ)を整合させることで,画像-テキスト対比学習の有効性をさらに高め,即興チューニングのための画像としてテキストを扱いやすくし,taiプロンプトを導入することを提案する。
視覚的データとは対照的に、テキスト記述は収集が容易であり、クラスラベルを直接導出することができる。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
さらに,多段認識性能向上のための粗粒度と細粒度の両方を抽出し,二重粒度プロンプトチューニング(tai-dpt)を行う。
実験の結果,提案したTaI-DPTは,MS-COCO,VOC2007,NAS-WIDEなど複数のベンチマークにおいてゼロショットCLIPよりも優れており,既存の画像からのプロンプト手法と組み合わせて認識性能を向上させることができることがわかった。
コードはhttps://github.com/guozix/TaI-DPTで公開されている。
関連論文リスト
- CoAPT: Context Attribute words for Prompt Tuning [5.811993982861212]
少数/ゼロショット画像分類のための新しいプロンプトチューニング手法であるCoAPTを提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
CoAPTは単語を学習可能なプロンプトチューニングに追加のプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2024-07-18T08:58:01Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。