論文の概要: Compound Text-Guided Prompt Tuning via Image-Adaptive Cues
- arxiv url: http://arxiv.org/abs/2312.06401v1
- Date: Mon, 11 Dec 2023 14:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:16:13.488807
- Title: Compound Text-Guided Prompt Tuning via Image-Adaptive Cues
- Title(参考訳): 画像適応キューによる複合テキストガイドプロンプトチューニング
- Authors: Hao Tan, Jun Li, Yizhuang Zhou, Jun Wan, Zhen Lei, Xiangyu Zhang
- Abstract要約: 複合テキストガイド型プロンプトチューニング(TGP-T)を提案する。
優れた性能を保ちながら、リソース需要を大幅に削減する。
これはGPUメモリ使用量を93%削減し、16ショットのImageNetで2.5%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 42.248853198953945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP have demonstrated remarkable
generalization capabilities to downstream tasks. However, existing prompt
tuning based frameworks need to parallelize learnable textual inputs for all
categories, suffering from massive GPU memory consumption when there is a large
number of categories in the target dataset. Moreover, previous works require to
include category names within prompts, exhibiting subpar performance when
dealing with ambiguous category names. To address these shortcomings, we
propose Compound Text-Guided Prompt Tuning (TGP-T) that significantly reduces
resource demand while achieving superior performance. We introduce text
supervision to the optimization of prompts, which enables two benefits: 1)
releasing the model reliance on the pre-defined category names during
inference, thereby enabling more flexible prompt generation; 2) reducing the
number of inputs to the text encoder, which decreases GPU memory consumption
significantly. Specifically, we found that compound text supervisions, i.e.,
category-wise and content-wise, is highly effective, since they provide
inter-class separability and capture intra-class variations, respectively.
Moreover, we condition the prompt generation on visual features through a
module called Bonder, which facilitates the alignment between prompts and
visual features. Extensive experiments on few-shot recognition and domain
generalization demonstrate that TGP-T achieves superior performance with
consistently lower training costs. It reduces GPU memory usage by 93% and
attains a 2.5% performance gain on 16-shot ImageNet. The code is available at
https://github.com/EricTan7/TGP-T.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、下流タスクへの顕著な一般化機能を示している。
しかしながら、既存のプロンプトチューニングベースのフレームワークでは、学習可能なテキスト入力をすべてのカテゴリで並列化する必要がある。
さらに、以前の作品ではプロンプトにカテゴリ名を含める必要があり、あいまいなカテゴリ名を扱う際にサブパーパフォーマンスを示す。
これらの欠点に対処するため,我々は,優れた性能を実現しながらリソース需要を大幅に削減する複合テキスト誘導型プロンプトチューニング(tgp-t)を提案する。
我々は、プロンプトの最適化にテキスト管理を導入し、2つの利点を実現した。
1) 推論中に予め定義されたカテゴリ名に依存したモデルをリリースすることにより,より柔軟なプロンプト生成が可能になる。
2) テキストエンコーダへの入力数を削減し,GPUメモリ使用量を大幅に削減する。
具体的には,クラス間分離性とクラス内変動をそれぞれ備えるため,複合テキストの監督,すなわちカテゴリ間およびコンテンツ間管理が極めて効果的であることが判明した。
さらに,プロンプトと視覚特徴のアライメントを容易にするボンダーと呼ばれるモジュールを用いて,視覚特徴のプロンプト生成を条件とする。
ショット認識と領域一般化に関する大規模な実験により、TGP-Tはトレーニングコストを一定に抑えながら優れた性能を発揮することが示された。
gpuメモリ使用量を93%削減し、16ショットイメージネットで2.5%のパフォーマンス向上を達成した。
コードはhttps://github.com/EricTan7/TGP-Tで入手できる。
関連論文リスト
- IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach [29.735863112700358]
本稿では,GFSSタスクにおいて,学習した視覚的プロンプトを用いたトランスフォーマーデコーダの有効性について検討する。
我々のゴールは、限られた例を持つ新しいカテゴリだけでなく、基本カテゴリにおけるパフォーマンスを維持することにある。
本稿では,新しいプロンプトと限られた例で学習したベースプロンプトと,豊富なデータで学習したベースプロンプトとの間に一方向因果注意機構を導入する。
論文 参考訳(メタデータ) (2024-04-17T20:35:00Z) - GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph [63.81641578763094]
適応型効率的な伝達学習(ETL)は視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した
本稿では,2つのモーダリティ構造知識を明示的にモデル化し,テキストアダプティブを実行する,GraphAdapterと呼ばれる効果的なアダプタスタイルチューニング戦略を提案する。
特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。
論文 参考訳(メタデータ) (2023-09-24T12:56:40Z) - PVPUFormer: Probabilistic Visual Prompt Unified Transformer for Interactive Image Segmentation [28.033243651780214]
本稿では,対話型画像セグメンテーションのための簡易で効果的な確率的ビジュアルプロンプト統一変換器(PVPUFormer)を提案する。
本稿ではまず,プロンプト情報と非プロンプト情報の両方を探索することにより一次元ベクトルを生成する確率的プロンプト統一(PPuE)を提案する。
次にPrompt-to-Pixel Contrastive (P$2$C)ロスを示し、プロンプトとピクセルの特徴を正確に整合させ、それらの間の表現ギャップを埋める。
論文 参考訳(メタデータ) (2023-06-11T12:00:33Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。