論文の概要: A Closer Look at Conditional Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.23856v1
- Date: Mon, 30 Jun 2025 13:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.086456
- Title: A Closer Look at Conditional Prompt Tuning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための条件付きプロンプトチューニング
- Authors: Ji Zhang, Shihan Wu, Lianli Gao, Jingkuan Song, Nicu Sebe, Heng Tao Shen,
- Abstract要約: そこで我々は,TCI条件付きプロンプトをベースクラスから学習することで,チューニングされたモデルを新しいクラスに迅速に適応できるクラス適応型プロンプトチューニング(CaPT)を提案する。
CaPTは5つの強い非条件のPTベースラインの性能を、追加の計算コストで一貫して改善する。
また,DeCaPTと呼ばれる新しい条件付きPT手法を考案し,現状の条件付きPT方式のH ACCを3.49%向上させた。
- 参考スコア(独自算出の注目度): 157.16237299987904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the great promise of Prompt Tuning (PT) in adapting large Vision-Language Pretrained Models (VLPMs) to downstream tasks, they often struggle to overcome the Base-New Tradeoff (BNT) dilemma: as VLPMs are better tuned to a base task, their ability to generalize to new tasks diminishes. Recent work on conditional PT addresses this problem by replacing static prompts with dynamic Visual Image Information (VII)-conditioned prompts, improving the model's generalization to new tasks to some extent. In this work, we first identify a critical issue with existing conditional PT methods: using VII as the "condition" of prompts yields suboptimal performance, and even random noise-conditioned prompts can outperform the VII-conditioned counterparts. On further analysis, we find that learning dynamic prompts conditioned on Textual Class Information (TCI) is the key to solving the BNT problem. Motivated by this, we then propose Class-adaptive Prompt Tuning (CaPT), which enables fast adaptation of tuned models to new classes by learning TCI-conditioned prompts from base classes. Remarkably, CaPT can be used as a plugin to mitigate the BNT problem for existing unconditional PT schemes. Extensive experiments on 11 datasets show that CaPT consistently improves the performance of five strong unconditional PT baselines with negligible additional computational cost. Additionally, by integrating CaPT with our recently proposed DePT framework, we devise a new conditional PT approach, termed DeCaPT, which outperforms the H ACC of the state-of-the-art conditional PT scheme by 3.49%, averaged over the 11 datasets. Code: https://github.com/Koorye/CaPT.
- Abstract(参考訳): Prompt Tuning (PT) による大規模なビジョンランゲージ事前訓練モデル (VLPM) を下流タスクに適用するという大きな約束にもかかわらず、彼らはベースニュートレードオフ (BNT) ジレンマを克服するのに苦労する。
条件付きPTの最近の研究は、静的なプロンプトを動的視覚情報(VII)条件のプロンプトに置き換えることでこの問題に対処し、モデルの新たなタスクへの一般化をある程度改善している。
本研究では,従来の条件付きPT手法における重要な問題として,プロンプトの「条件」としてVIIを用いると,最適性能が得られ,ランダムなノイズ条件付きプロンプトでもVII条件のプロンプトよりも優れることを示す。
さらに分析した結果,テキストクラス情報(TCI)に基づく動的プロンプトの学習が,BNT問題の解決の鍵であることが判明した。
そこで我々は,TCI条件付きプロンプトをベースクラスから学習することで,チューニングされたモデルを新しいクラスに迅速に適応できるクラス適応型プロンプトチューニング(CaPT)を提案する。
注目すべきは、CaPTは既存の無条件のPTスキームに対するBNT問題を緩和するためのプラグインとして使用できることである。
11個のデータセットに対する大規模な実験により、CaPTは強い無条件のPTベースラインの性能を、無視できる追加の計算コストで一貫して改善することが示された。
さらに、最近提案したDePTフレームワークとCaPTを統合することで、11データセット平均3.49%の最先端の条件付きPTスキームのHACCを上回り、DeCaPTと呼ばれる新しい条件付きPTアプローチを考案した。
コード:https://github.com/Koorye/CaPT。
関連論文リスト
- Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。
11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文 参考訳(メタデータ) (2024-06-01T07:46:42Z) - CLIPArTT: Adaptation of CLIP to New Domains at Test Time [19.0284321951354]
CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。
提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,入力を再分類するためにemphpseudoラベルとして使用する,ユニークで最小限の侵襲的なテキストプロンプトチューニング処理を採用している。
以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
論文 参考訳(メタデータ) (2024-05-01T07:24:30Z) - Test-Time Training for Semantic Segmentation with Output Contrastive
Loss [12.535720010867538]
ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、目に見えない環境にうまく一般化することは、依然として大きな課題である。
本稿では、適応過程を安定させるために、頑健で一般化された表現を学習する能力で知られるコントラストロス(OCL)を紹介する。
本手法は,テスト領域データに対するドメイン適応法を用いて事前学習したモデルに適用した場合においても優れ,そのレジリエンスと適応性を示す。
論文 参考訳(メタデータ) (2023-11-14T03:13:47Z) - DePT: Decoupled Prompt Tuning [124.58877816753824]
この作業は、即時チューニングにおいてBase-New Tradeoff (BNT)ジレンマを突破する。
チューニングされたモデルがベースタスクに一般化されるほど、それが新しいタスクに一般化される。
提案するDecoupled Prompt Tuning (DePT) フレームワークは,プロンプトチューニング中に特徴チャネルから独立した特徴空間へベース固有の知識を分離する。
論文 参考訳(メタデータ) (2023-09-14T05:45:40Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。