論文の概要: Semantic Residual Prompts for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.06870v3
- Date: Thu, 18 Jul 2024 10:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:21:41.868171
- Title: Semantic Residual Prompts for Continual Learning
- Title(参考訳): 連続学習のための意味的残差プロンプト
- Authors: Martin Menabue, Emanuele Frascaroli, Matteo Boschini, Enver Sangineto, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara,
- Abstract要約: 提案手法は,最先端CLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
我々の発見は、バックボーンモデルの事前学習知識に相当な領域ギャップを持つデータセットにも当てはまる。
- 参考スコア(独自算出の注目度): 21.986800282078498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-tuning methods for Continual Learning (CL) freeze a large pre-trained model and train a few parameter vectors termed prompts. Most of these methods organize these vectors in a pool of key-value pairs and use the input image as query to retrieve the prompts (values). However, as keys are learned while tasks progress, the prompting selection strategy is itself subject to catastrophic forgetting, an issue often overlooked by existing approaches. For instance, prompts introduced to accommodate new tasks might end up interfering with previously learned prompts. To make the selection strategy more stable, we leverage a foundation model (CLIP) to select our prompts within a two-level adaptation mechanism. Specifically, the first level leverages a standard textual prompt pool for the CLIP textual encoder, leading to stable class prototypes. The second level, instead, uses these prototypes along with the query image as keys to index a second pool. The retrieved prompts serve to adapt a pre-trained ViT, granting plasticity. In doing so, we also propose a novel residual mechanism to transfer CLIP semantics to the ViT layers. Through extensive analysis on established CL benchmarks, we show that our method significantly outperforms both state-of-the-art CL approaches and the zero-shot CLIP test. Notably, our findings hold true even for datasets with a substantial domain gap w.r.t. the pre-training knowledge of the backbone model, as showcased by experiments on satellite imagery and medical datasets. The codebase is available at https://github.com/aimagelab/mammoth.
- Abstract(参考訳): Prompt-tuning method for Continual Learning (CL)は、大きな事前訓練されたモデルを凍結し、プロンプトと呼ばれるいくつかのパラメータベクトルを訓練する。
これらの手法の多くは、これらのベクトルをキーと値のペアのプールに整理し、入力イメージをクエリとして使用してプロンプト(値)を検索する。
しかし、タスクの進行中にキーが学習されるため、選択の促進戦略自体が破滅的な忘れ込みの対象となるため、既存のアプローチでは見過ごされがちである。
例えば、新しいタスクに対応するために導入されたプロンプトは、以前学習されたプロンプトと干渉する可能性がある。
選択戦略をより安定させるために,基礎モデル(CLIP)を活用して2段階適応機構内のプロンプトを選択する。
具体的には、第1レベルはCLIPテキストエンコーダの標準テキストプロンプトプールを利用しており、安定したクラスのプロトタイプにつながっている。
第2レベルは、これらのプロトタイプとクエリイメージをキーとして使用して、第2プールをインデックスする。
抽出されたプロンプトは、事前訓練されたViTに適応し、可塑性を与える。
そこで本研究では,CLIP のセマンティクスを ViT 層に転送する機構を新たに提案する。
確立されたCLベンチマークの広範な解析により,本手法は最先端のCLアプローチとゼロショットCLIPテストの両方で有意に優れていた。
特に、衛星画像と医療データセットの実験で示されたように、バックボーンモデルの事前学習知識に相当な領域ギャップがあるデータセットにおいても、我々の発見は真実である。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
関連論文リスト
- Cascade Prompt Learning for Vision-Language Model Adaptation [24.8128345254124]
Cascade Prompt Learning CasPLは、学習可能なプロンプトの2つの異なるフェーズからなる新しい学習パラダイムである。
CasPLはドメインジェネラルとタスク固有の表現の両方を、明示的に異なる段階的なプロンプトのグループに効果的にキャプチャできる。
従来の最先端のPromptSRCと比較して、CasPLはベースクラスが1.85%、新しいクラスが3.44%、調和平均が11以上の画像分類データセットが2.72%である。
論文 参考訳(メタデータ) (2024-09-26T12:58:01Z) - CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering [23.360714576158905]
大規模視覚言語モデル(VLM)は、様々なアプリケーション領域で大幅な性能向上を示している。
タスク上でVLMを微調整すると、その一般化能力と新しいタスクの学習能力が低下する。
本稿では,VLM の新しいプロンプトベースCL法,すなわち $textbfClu$ster-based $textbfMo$dality Fusion Prompt (textbfCluMo)を提案する。
論文 参考訳(メタデータ) (2024-08-21T16:07:49Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - POP: Prompt Of Prompts for Continual Learning [59.15888651733645]
継続的な学習(CL)は、破滅的な忘れをせずに新しい概念を学習する人間の能力を模倣することを目的としている。
POP学習を用いた基礎モデルでは,古典的なCL手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-14T02:09:26Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。
本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。
単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文 参考訳(メタデータ) (2022-01-17T09:09:09Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。