論文の概要: TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
- arxiv url: http://arxiv.org/abs/2311.18231v2
- Date: Wed, 13 Mar 2024 01:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:58:27.454874
- Title: TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
- Title(参考訳): TCP:Visual-Language Modelのためのテキストベースのクラスアウェア・プロンプトチューニング
- Authors: Hantao Yao, Rui Zhang, Changsheng Xu
- Abstract要約: 本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 78.77544632773404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt tuning represents a valuable technique for adapting pre-trained
visual-language models (VLM) to various downstream tasks. Recent advancements
in CoOp-based methods propose a set of learnable domain-shared or
image-conditional textual tokens to facilitate the generation of task-specific
textual classifiers. However, those textual tokens have a limited
generalization ability regarding unseen domains, as they cannot dynamically
adjust to the distribution of testing classes. To tackle this issue, we present
a novel Textual-based Class-aware Prompt tuning(TCP) that explicitly
incorporates prior knowledge about classes to enhance their discriminability.
The critical concept of TCP involves leveraging Textual Knowledge Embedding
(TKE) to map the high generalizability of class-level textual knowledge into
class-aware textual tokens. By seamlessly integrating these class-aware prompts
into the Text Encoder, a dynamic class-aware classifier is generated to enhance
discriminability for unseen domains. During inference, TKE dynamically
generates class-aware prompts related to the unseen classes. Comprehensive
evaluations demonstrate that TKE serves as a plug-and-play module effortlessly
combinable with existing methods. Furthermore, TCP consistently achieves
superior performance while demanding less training time.
Code:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning/
- Abstract(参考訳): プロンプトチューニングは、様々な下流タスクに事前訓練された視覚言語モデル(VLM)を適用するための貴重なテクニックである。
CoOpベースの手法の最近の進歩は、タスク固有のテキスト分類器の生成を容易にするために、学習可能なドメイン共有または画像条件付きテキストトークンのセットを提案する。
しかし、これらのテキストトークンはテストクラスの分布に動的に適応できないため、未確認領域に関する限定的な一般化能力を有する。
この問題に対処するために,テキストベースのクラスアウェア・プロンプト・チューニング(TCP)を提案する。
TCPの批判的な概念は、テキスト知識埋め込み(TKE)を活用して、クラスレベルのテキスト知識をクラス対応のテキストトークンにマップすることである。
これらのクラス認識プロンプトをText Encoderにシームレスに統合することにより、動的クラス認識分類器が生成され、目に見えないドメインの識別性を高める。
推論中、TKEは目に見えないクラスに関連するクラス認識プロンプトを動的に生成する。
包括的評価は、TKEが既存のメソッドとシームレスに結合可能なプラグイン・アンド・プレイモジュールとして機能することを示している。
さらに、TCPはトレーニング時間の短縮を要求しつつ、優れたパフォーマンスを継続的に達成している。
コード:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning/
関連論文リスト
- Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Text-driven Prompt Generation for Vision-Language Models in Federated
Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。
FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。
9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T19:57:24Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。
我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文 参考訳(メタデータ) (2023-03-23T14:04:23Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - PTR: Prompt Tuning with Rules for Text Classification [64.1655047016891]
微調整された事前学習言語モデル(PLM)は、ほぼすべてのNLPタスクで素晴らしいパフォーマンスを実現している。
我々は,多クラステキスト分類のためのルール(PTR)による即時チューニングを提案する。
PTRは、各クラスの事前知識を即時チューニングにエンコードすることができる。
論文 参考訳(メタデータ) (2021-05-24T13:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。