論文の概要: CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning
- arxiv url: http://arxiv.org/abs/2407.15793v4
- Date: Mon, 28 Oct 2024 12:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:45:25.616621
- Title: CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning
- Title(参考訳): CLIP - インクリメンタルラーニングのための強力なベースライン
- Authors: Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara,
- Abstract要約: インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
- 参考スコア(独自算出の注目度): 17.614980614656407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, fine-tuning large pre-trained models has recently become a prevalent strategy in Continual Learning. This has led to the development of numerous prompting strategies to adapt transformer-based models without incurring catastrophic forgetting. However, these strategies often compromise the original zero-shot capabilities of the pre-trained CLIP model and struggle to adapt to domains that significantly deviate from the pre-training data. In this work, we propose Continual Generative training for Incremental prompt-Learning, a simple and novel approach to mitigate forgetting while adapting CLIP. Briefly, we employ Variational Autoencoders (VAEs) to learn class-conditioned distributions within the embedding space of the visual encoder. We then exploit these distributions to sample new synthetic visual embeddings and train the corresponding class-specific textual prompts during subsequent tasks. Through extensive experiments on different domains, we show that such a generative replay approach can adapt to new tasks while improving zero-shot capabilities, evaluated using a novel metric tailored for CL scenarios. Notably, further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth.
- Abstract(参考訳): CLIPのようなトランスフォーマーやビジョン・ランゲージ・モデル(VLM)の出現に伴い、微調整された大規模な事前学習モデルは、近年、継続的な学習において一般的な戦略となっている。
このことが、破滅的な忘れを招かずにトランスフォーマーベースのモデルに適応するための多くの急進的戦略の開発につながった。
しかしながら、これらの戦略は、事前トレーニングされたCLIPモデルの元々のゼロショット能力を損なうことが多く、事前トレーニングされたデータから著しく逸脱したドメインへの適応に苦慮する。
本稿では,CLIPを適応させながら忘れを軽減するためのシンプルで斬新な手法であるインクリメンタル・プロンプト学習のための連続的生成学習を提案する。
簡単に言えば、視覚エンコーダの埋め込み空間内のクラス条件分布を学習するために、変分オートエンコーダ(VAE)を用いる。
次に、これらの分布を利用して、新しい合成視覚埋め込みをサンプリングし、その後のタスク中に対応するクラス固有のテキストプロンプトをトレーニングする。
異なる領域に関する広範な実験を通して、このような生成的再生アプローチはゼロショット能力を改善しつつ新しいタスクに適応できることを示し、CLシナリオに適した新しいメトリクスを用いて評価する。
さらなる分析により,我々の手法は,ジョイント・プロンプト・チューニングによってギャップを埋めることができることが明らかとなった。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Transformers for Supervised Online Continual Learning [11.270594318662233]
オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。
本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T16:12:20Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series [57.4208255711412]
パウラ理論に基づいて,最近導入されたトランスフォーマーに基づく注目パウラ(TACTiS)の簡易な目的を提案する。
結果から,実世界の予測タスクにまたがって,このモデルのトレーニング性能が大幅に向上し,最先端のパフォーマンスが達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T16:45:19Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - An EM Framework for Online Incremental Learning of Semantic Segmentation [37.94734474090863]
本稿では,新しいクラスのみに画素アノテーションを付加したストリーミング入力データを用いて,大惨な忘れをせずに深いセグメンテーションモデルを適応できる漸進的な学習戦略を提案する。
PASCAL VOC 2012とADE20Kデータセットに対するアプローチを検証するとともに,既存のインクリメンタルメソッドよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T11:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。