論文の概要: Semantic Residual Prompts for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.06870v2
- Date: Thu, 14 Mar 2024 12:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:01:27.426611
- Title: Semantic Residual Prompts for Continual Learning
- Title(参考訳): 連続学習のための意味的残差プロンプト
- Authors: Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara,
- Abstract要約: 提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
- 参考スコア(独自算出の注目度): 21.986800282078498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and focus training on a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs, and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we ask a foundational model (CLIP) to select our prompt within a two-level adaptation mechanism. Specifically, the first level leverages standard textual prompts for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets.
- Abstract(参考訳): Prompt-tuning method for Continual Learning (CL)は、大きな事前訓練されたモデルを凍結し、プロンプトと呼ばれるパラメータベクトルに焦点を合わせる。
これらの手法の多くは、これらのベクトルをキーと値のペアのプールに整理し、入力イメージをクエリとして使用してプロンプト(値)を検索する。
しかし、タスクの進行中にキーが学習されるため、選択の促進戦略自体が破滅的な忘れ込みの対象となるため、既存のアプローチでは見過ごされがちである。
例えば、新しいタスクに対応するために導入されたプロンプトは、以前学習されたプロンプトと干渉する可能性がある。
選択戦略をより安定させるために,基本モデル (CLIP) に2段階適応機構内のプロンプトを選択するよう依頼する。
具体的には、第1レベルはCLIPテキストエンコーダの標準的なテキストプロンプトを活用し、安定したクラスのプロトタイプに繋がる。
第2レベルは、これらのプロトタイプとクエリイメージをキーとして使用して、第2プールをインデックスする。
抽出されたプロンプトは、事前訓練されたViTに適応し、可塑性を与える。
そこで本研究では,CLIP のセマンティクスを ViT 層に転送する機構を新たに提案する。
確立されたCLベンチマークの広範な解析により,本手法は最先端のCLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
特に、衛星画像と医療データセットの実験で示されたように、バックボーンモデルの事前学習知識に相当な領域ギャップがあるデータセットにおいても、我々の発見は真実である。
関連論文リスト
- ProS: Prompting-to-simulate Generalized knowledge for Universal
Cross-Domain Retrieval [123.51277978744677]
textbfPrompting-to-textbfSimulate (ProS) を提案し,Universal Cross-Domain Retrieval (UCDR) にプロンプトチューニングを適用する。
ProSは、Content-Aware Dynamic Prompts (CaDP)をシミュレートする2段階のプロセスを採用している。
本手法は過剰なパラメータを伴わずに新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T14:39:11Z) - Fast Certification of Vision-Language Models Using Incremental
Randomized Smoothing [0.0]
私たちはCLIPのようなオープン語彙モデルの高速認証手法であるOpen Vocabulary Certification (OVC)を紹介した。
OVCは、新しいプロンプトを持つ分類器が、ベーストレーニングセット内の近くの分類器の摂動バージョンと見なせるという観察に依存している。
CIFAR-10およびImageNetテストデータセット上で、複数の視覚言語バックボーンを用いた実験評価により、OVCの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T15:14:16Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。