Fugu-MT 論文翻訳(概要): TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

論文の概要: TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

arxiv url: http://arxiv.org/abs/2311.18231v2
Date: Wed, 13 Mar 2024 01:42:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 17:58:27.454874
Title: TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
Title（参考訳）: TCP:Visual-Language Modelのためのテキストベースのクラスアウェア・プロンプトチューニング
Authors: Hantao Yao, Rui Zhang, Changsheng Xu
Abstract要約: 本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。 TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 78.77544632773404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompt tuning represents a valuable technique for adapting pre-trained visual-language models (VLM) to various downstream tasks. Recent advancements in CoOp-based methods propose a set of learnable domain-shared or image-conditional textual tokens to facilitate the generation of task-specific textual classifiers. However, those textual tokens have a limited generalization ability regarding unseen domains, as they cannot dynamically adjust to the distribution of testing classes. To tackle this issue, we present a novel Textual-based Class-aware Prompt tuning(TCP) that explicitly incorporates prior knowledge about classes to enhance their discriminability. The critical concept of TCP involves leveraging Textual Knowledge Embedding (TKE) to map the high generalizability of class-level textual knowledge into class-aware textual tokens. By seamlessly integrating these class-aware prompts into the Text Encoder, a dynamic class-aware classifier is generated to enhance discriminability for unseen domains. During inference, TKE dynamically generates class-aware prompts related to the unseen classes. Comprehensive evaluations demonstrate that TKE serves as a plug-and-play module effortlessly combinable with existing methods. Furthermore, TCP consistently achieves superior performance while demanding less training time. Code:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning/
Abstract（参考訳）: プロンプトチューニングは、様々な下流タスクに事前訓練された視覚言語モデル(VLM)を適用するための貴重なテクニックである。 CoOpベースの手法の最近の進歩は、タスク固有のテキスト分類器の生成を容易にするために、学習可能なドメイン共有または画像条件付きテキストトークンのセットを提案する。しかし、これらのテキストトークンはテストクラスの分布に動的に適応できないため、未確認領域に関する限定的な一般化能力を有する。この問題に対処するために,テキストベースのクラスアウェア・プロンプト・チューニング(TCP)を提案する。 TCPの批判的な概念は、テキスト知識埋め込み(TKE)を活用して、クラスレベルのテキスト知識をクラス対応のテキストトークンにマップすることである。これらのクラス認識プロンプトをText Encoderにシームレスに統合することにより、動的クラス認識分類器が生成され、目に見えないドメインの識別性を高める。推論中、TKEは目に見えないクラスに関連するクラス認識プロンプトを動的に生成する。包括的評価は、TKEが既存のメソッドとシームレスに結合可能なプラグイン・アンド・プレイモジュールとして機能することを示している。さらに、TCPはトレーニング時間の短縮を要求しつつ、優れたパフォーマンスを継続的に達成している。コード:https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning/

関連論文リスト

GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models [34.002791706686345]
視覚的およびテキスト的ソフトプロンプトチューニングは、下流タスクにおける視覚言語モデル(VLM)の適応性を向上させることができる。既存の手法では、手作りプロンプトとソフトプロンプトのギャップを規則化することで、この効果を緩和しようとする。本稿では,ビデオタスクにおけるV-Lモデルの性能を最適化するプラグイン・アンド・プレイ・カップリング・プロンプト学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-27T05:36:47Z)
AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文参考訳（メタデータ） (2025-09-07T07:07:59Z)
FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models [24.47897642582332]
テキストプロンプトチューニングは、ローカルクライアントデータに軽量な入力トークン(またはプロンプト)をチューニングし、ネットワークウェイトを凍結させながら、ビジョンランゲージモデル(例えばCLIP)をフェデレート学習に適用する。 FedMVPは、本質的にマルチモーダルな、包括的なコンテキスト情報 -- イメージ条件付き機能とクラスのテキスト属性機能 -- のプロンプトを条件にしている。動的に生成されたマルチモーダル視覚プロンプトは、CLIPの凍結ビジョンエンコーダに入力され、CLIP類似性損失と一貫性損失の組み合わせでトレーニングされる。
論文参考訳（メタデータ） (2025-04-29T15:36:51Z)
SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-02-27T05:33:18Z)
ATPrompt: Textual Prompt Learning with Embedded Attributes [73.1352833091256]
本稿では,ATPrompt という名前の視覚言語モデルに対する属性埋め込み型テキスト・プロンプト学習手法を提案する。テキストプロンプトをカテゴリ中心の形式から属性-カテゴリハイブリッド形式に変換する。使いやすいプラグイン技術として、ATPromptは既存のプロンプトフォーマットをシームレスに置き換えることができる。
論文参考訳（メタデータ） (2024-12-12T16:57:20Z)
TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning [16.881957688535557]
TextRefinerは、既存のメソッドのテキストプロンプトを洗練するためのプラグイン・アンド・プレイメソッドである。きめ細かいビジュアル概念をカプセル化する新しいローカルキャッシュモジュールを構築している。最先端のパフォーマンスを実現し、推論で効率的である。
論文参考訳（メタデータ） (2024-12-11T08:07:12Z)
Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation [15.159690685421586]
本稿では、人間の視覚知覚パターンを模倣し、プロンプト・アンド・トランスファー(PAT)と呼ばれる、新しい強力なプロンプト駆動方式を提案する。 PATは、現在のタスクで関心のあるオブジェクト(ターゲットクラス)にフォーカスするためにエンコーダをチューニングするための動的クラス認識プロンプトパラダイムを構築します。驚いたことに、PATは標準のFSS、クロスドメインのFSS、Wak-label、Zero-shot-labelを含む4つのタスクで競合するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-09-16T15:24:26Z)
SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。 SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文参考訳（メタデータ） (2024-05-24T13:35:56Z)
Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? [28.041879000565874]
本稿では,大規模言語モデルから得られたクラス記述を活用するプロンプトチューニング手法を提案する。提案手法では,より一般化可能なプロンプトを学習するために,部分レベルの説明誘導画像とテキストの特徴を合成する。 11のベンチマークデータセットで実施した総合的な実験から,提案手法が確立された手法より優れていたことが判明した。
論文参考訳（メタデータ） (2024-05-13T16:52:17Z)
Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2024-03-15T02:40:13Z)
Text-driven Prompt Generation for Vision-Language Models in Federated Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。 FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。 9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文参考訳（メタデータ） (2023-10-09T19:57:24Z)
Visual-Language Prompt Tuning with Knowledge-guided Context Optimization [96.27531485377871]
代表的CoOpベースの作業は、学習可能なテキストトークンとクラストークンを組み合わせて、特定のテキスト知識を得る。我々は,未知のクラスに対する学習可能なプロンプトの一般化能力を高めるために,新しい知識誘導コンテキスト最適化(KgCoOp)を導入する。
論文参考訳（メタデータ） (2023-03-23T14:04:23Z)
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。 LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。 LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文参考訳（メタデータ） (2022-10-03T17:56:35Z)
PTR: Prompt Tuning with Rules for Text Classification [64.1655047016891]
微調整された事前学習言語モデル(PLM)は、ほぼすべてのNLPタスクで素晴らしいパフォーマンスを実現している。我々は,多クラステキスト分類のためのルール(PTR)による即時チューニングを提案する。 PTRは、各クラスの事前知識を即時チューニングにエンコードすることができる。
論文参考訳（メタデータ） (2021-05-24T13:24:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。