論文の概要: Semantic Residual Prompts for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.06870v1
- Date: Mon, 11 Mar 2024 16:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:14:09.651528
- Title: Semantic Residual Prompts for Continual Learning
- Title(参考訳): 連続学習のための意味的残差プロンプト
- Authors: Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto,
Lorenzo Bonicelli, Angelo Porrello, Simone Calderara
- Abstract要約: 提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
- 参考スコア(独自算出の注目度): 23.089344226912537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained
model and focus training on a few parameter vectors termed prompts. Most of
these methods organize these vectors in a pool of key-value pairs, and use the
input image as query to retrieve the prompts (values). However, as keys are
learned while tasks progress, the prompting selection strategy is itself
subject to catastrophic forgetting, an issue often overlooked by existing
approaches. For instance, prompts introduced to accommodate new tasks might end
up interfering with previously learned prompts. To make the selection strategy
more stable, we ask a foundational model (CLIP) to select our prompt within a
two-level adaptation mechanism. Specifically, the first level leverages
standard textual prompts for the CLIP textual encoder, leading to stable class
prototypes. The second level, instead, uses these prototypes along with the
query image as keys to index a second pool. The retrieved prompts serve to
adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a
novel residual mechanism to transfer CLIP semantics to the ViT layers. Through
extensive analysis on established CL benchmarks, we show that our method
significantly outperforms both state-of-the-art CL approaches and the zero-shot
CLIP test. Notably, our findings hold true even for datasets with a substantial
domain gap w.r.t. the pre-training knowledge of the backbone model, as
showcased by experiments on satellite imagery and medical datasets.
- Abstract(参考訳): Prompt-tuning method for Continual Learning (CL)は、大きな事前訓練されたモデルを凍結し、プロンプトと呼ばれるパラメータベクトルに焦点を合わせる。
これらの手法の多くは、これらのベクトルをキーと値のペアのプールにまとめ、入力イメージをクエリとして使用してプロンプト(値)を検索する。
しかし、タスクの進行中にキーが学習されるため、プロンプト選択戦略自体が破滅的な忘れることになるため、既存のアプローチでは見過ごされがちである。
例えば、新しいタスクに対応するために導入されたプロンプトは、以前の学習したプロンプトと干渉する可能性がある。
選択戦略をより安定させるために,基本モデル (CLIP) に2段階適応機構内のプロンプトを選択するよう依頼する。
具体的には、第1レベルはCLIPテキストエンコーダの標準的なテキストプロンプトを活用し、安定したクラスのプロトタイプに繋がる。
第2レベルは、これらのプロトタイプとクエリイメージをキーとして使用して、第2プールをインデックスする。
抽出されたプロンプトは、事前訓練されたViTに適応し、可塑性を与える。
そこで本研究では,CLIP のセマンティクスを ViT 層に転送する機構を新たに提案する。
確立されたCLベンチマークの広範な解析により,本手法は最先端のCLアプローチとゼロショットCLIPテストの両方に優れていた。
特に、衛星画像や医療データセットの実験で示されるように、バックボーンモデルの事前学習知識がかなりの領域ギャップを持つデータセットにおいても、我々の発見は事実である。
関連論文リスト
- Fast Certification of Vision-Language Models Using Incremental
Randomized Smoothing [0.0]
私たちはCLIPのようなオープン語彙モデルの高速認証手法であるOpen Vocabulary Certification (OVC)を紹介した。
OVCは、新しいプロンプトを持つ分類器が、ベーストレーニングセット内の近くの分類器の摂動バージョンと見なせるという観察に依存している。
CIFAR-10およびImageNetテストデータセット上で、複数の視覚言語バックボーンを用いた実験評価により、OVCの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T15:14:16Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。