論文の概要: Cascade Prompt Learning for Vision-Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2409.17805v1
- Date: Thu, 26 Sep 2024 12:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 19:42:02.043643
- Title: Cascade Prompt Learning for Vision-Language Model Adaptation
- Title(参考訳): 視覚言語モデル適応のためのカスケードプロンプト学習
- Authors: Ge Wu, Xin Zhang, Zheng Li, Zhaowei Chen, Jiajun Liang, Jian Yang, Xiang Li,
- Abstract要約: Cascade Prompt Learning CasPLは、学習可能なプロンプトの2つの異なるフェーズからなる新しい学習パラダイムである。
CasPLはドメインジェネラルとタスク固有の表現の両方を、明示的に異なる段階的なプロンプトのグループに効果的にキャプチャできる。
従来の最先端のPromptSRCと比較して、CasPLはベースクラスが1.85%、新しいクラスが3.44%、調和平均が11以上の画像分類データセットが2.72%である。
- 参考スコア(独自算出の注目度): 24.8128345254124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning has surfaced as an effective approach to enhance the performance of Vision-Language Models (VLMs) like CLIP when applied to downstream tasks. However, current learnable prompt tokens are primarily used for the single phase of adapting to tasks (i.e., adapting prompt), easily leading to overfitting risks. In this work, we propose a novel Cascade Prompt Learning CasPL framework to enable prompt learning to serve both generic and specific expertise (i.e., boosting and adapting prompt) simultaneously. Specifically, CasPL is a new learning paradigm comprising two distinct phases of learnable prompts: the first boosting prompt is crafted to extract domain-general knowledge from a senior larger CLIP teacher model by aligning their predicted logits using extensive unlabeled domain images. The second adapting prompt is then cascaded with the frozen first set to fine-tune the downstream tasks, following the approaches employed in prior research. In this manner, CasPL can effectively capture both domain-general and task-specific representations into explicitly different gradual groups of prompts, thus potentially alleviating overfitting issues in the target domain. It's worth noting that CasPL serves as a plug-and-play module that can seamlessly integrate into any existing prompt learning approach. CasPL achieves a significantly better balance between performance and inference speed, which is especially beneficial for deploying smaller VLM models in resource-constrained environments. Compared to the previous state-of-the-art method PromptSRC, CasPL shows an average improvement of 1.85% for base classes, 3.44% for novel classes, and 2.72% for the harmonic mean over 11 image classification datasets. Code is publicly available at: https://github.com/megvii-research/CasPL.
- Abstract(参考訳): プロンプト学習は、下流タスクに適用した場合にCLIPのようなビジョン言語モデル(VLM)の性能を高める効果的なアプローチとして浮上した。
しかし、現在の学習可能なプロンプトトークンは、主にタスクに適応する単一フェーズ(すなわち、プロンプトに適応する)に使われ、簡単に過度なリスクをもたらす。
本研究では,新しいCascade Prompt Learning CasPLフレームワークを提案する。
特に、CasPLは、学習可能なプロンプトの2つの異なるフェーズからなる新しい学習パラダイムである。第1のブースティングプロンプトは、広範囲な未ラベルのドメインイメージを使用して予測ロジットを整列させることで、上級のCLIP教師モデルからドメイン一般知識を抽出する。
次に、第2適応プロンプトを凍った第1セットでカスケードして下流のタスクを微調整する。
このように、CasPLはドメインジェネラルとタスク固有の表現の両方を明示的に異なるプロンプトの段階的なグループに効果的にキャプチャできるため、ターゲットドメインにおける過度な問題を軽減する可能性がある。
CasPLがプラグイン・アンド・プレイモジュールとして機能し、既存のプロンプト学習アプローチにシームレスに統合できることは注目に値する。
CasPLは性能と推論速度のバランスを著しく改善し、特にリソース制約のある環境でより小さなVLMモデルをデプロイするのに有益である。
従来の最先端のPromptSRCと比較して、CasPLはベースクラスが1.85%、新しいクラスが3.44%、調和平均が11以上の画像分類データセットが2.72%である。
コードはhttps://github.com/megvii-research/CasPLで公開されている。
関連論文リスト
- Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Semantic Residual Prompts for Continual Learning [21.986800282078498]
提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
論文 参考訳(メタデータ) (2024-03-11T16:23:38Z) - PL-FSCIL: Harnessing the Power of Prompts for Few-Shot Class-Incremental Learning [9.247718160705512]
FSCIL(Few-Shot Class-Incremental Learning)は、ディープニューラルネットワークが少数のラベル付きサンプルから段階的に新しいタスクを学習できるようにすることを目的としている。
FSCIL(PL-FSCIL)のためのPrompt Learningと呼ばれる新しいアプローチを提案する。
PL-FSCILは、FSCILの課題に効果的に取り組むために、事前訓練されたビジョントランスフォーマー(ViT)モデルと共にプロンプトのパワーを利用する。
論文 参考訳(メタデータ) (2024-01-26T12:11:04Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z) - Domain Incremental Lifelong Learning in an Open World [45.704746275089555]
textbfDiana: a underlinedynamunderlineic underlinearchitecture based lifelounderlineng leunderlinearning model。
ダイアナでは4種類の階層的に整理されたプロンプトが、異なる粒度から知識を取得するために使われている。
論文 参考訳(メタデータ) (2023-05-11T04:19:08Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。