論文の概要: TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
- arxiv url: http://arxiv.org/abs/2311.18231v1
- Date: Thu, 30 Nov 2023 03:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:05:21.921255
- Title: TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
- Title(参考訳): TCP:Visual-Language Modelのためのテキストベースのクラスアウェア・プロンプトチューニング
- Authors: Hantao Yao, Rui Zhang, Changsheng Xu
- Abstract要約: 本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 78.77544632773404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning represents a valuable technique for adapting pre-trained
visual-language models (VLM) to various downstream tasks. Recent advancements
in CoOp-based methods propose a set of learnable domain-shared or
image-conditional textual tokens to facilitate the generation of task-specific
textual classifiers. However, those textual tokens have a limited
generalization ability regarding unseen domains, as they cannot dynamically
adjust to the distribution of testing classes. To tackle this issue, we present
a novel Textual-based Class-aware Prompt tuning(TCP) that explicitly
incorporates prior knowledge about classes to enhance their discriminability.
The critical concept of TCP involves leveraging Textual Knowledge Embedding
(TKE) to map the high generalizability of class-level textual knowledge into
class-aware textual tokens. By seamlessly integrating these class-aware prompts
into the Text Encoder, a dynamic class-aware classifier is generated to enhance
discriminability for unseen domains. During inference, TKE dynamically
generates class-aware prompts related to the unseen classes. Comprehensive
evaluations demonstrate that TKE serves as a plug-and-play module effortlessly
combinable with existing methods. Furthermore, TCP consistently achieves
superior performance while demanding less training time.
- Abstract(参考訳): プロンプトチューニングは、様々な下流タスクに事前訓練された視覚言語モデル(VLM)を適用するための貴重なテクニックである。
CoOpベースの手法の最近の進歩は、タスク固有のテキスト分類器の生成を容易にするために、学習可能なドメイン共有または画像条件付きテキストトークンのセットを提案する。
しかし、これらのテキストトークンはテストクラスの分布に動的に適応できないため、未確認領域に関する限定的な一般化能力を有する。
この問題に取り組むため,我々は,クラスに関する事前知識を明示的に組み込んだテキストベースクラスアウェア・プロンプト・チューニング(tcp)を提案する。
TCPの批判的な概念は、テキスト知識埋め込み(TKE)を活用して、クラスレベルのテキスト知識をクラス対応のテキストトークンにマップすることである。
これらのクラス認識プロンプトをText Encoderにシームレスに統合することにより、動的クラス認識分類器を生成し、目に見えないドメインの識別性を高める。
推論中、tkeはunseenクラスに関連するクラスアウェアプロンプトを動的に生成する。
包括的評価は、TKEが既存のメソッドとシームレスに結合可能なプラグイン・アンド・プレイモジュールとして機能することを示している。
さらに、TCPはトレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
関連論文リスト
- Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation [15.159690685421586]
本稿では、人間の視覚知覚パターンを模倣し、プロンプト・アンド・トランスファー(PAT)と呼ばれる、新しい強力なプロンプト駆動方式を提案する。
PATは、現在のタスクで関心のあるオブジェクト(ターゲットクラス)にフォーカスするためにエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築します。
驚いたことに、PATは標準のFSS、クロスドメインのFSS、Wak-label、Zero-shot-labelを含む4つのタスクで競合するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-16T15:24:26Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。
提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。
11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文 参考訳(メタデータ) (2024-05-13T16:52:17Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Text-driven Prompt Generation for Vision-Language Models in Federated
Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。
FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。
9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T19:57:24Z) - Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文 参考訳(メタデータ) (2023-03-23T14:04:23Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - PTR: Prompt Tuning with Rules for Text Classification [64.1655047016891]
微調整された事前学習言語モデル(PLM)は、ほぼすべてのNLPタスクで素晴らしいパフォーマンスを実現している。
我々は,多クラステキスト分類のためのルール(PTR)による即時チューニングを提案する。
PTRは、各クラスの事前知識を即時チューニングにエンコードすることができる。
論文 参考訳(メタデータ) (2021-05-24T13:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。