論文の概要: CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning
- arxiv url: http://arxiv.org/abs/2407.15793v1
- Date: Mon, 22 Jul 2024 16:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:00:56.263857
- Title: CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning
- Title(参考訳): CLIP - インクリメンタルラーニングのための強力なベースライン
- Authors: Emanuele Frascaroli, Aniello Panariello, Pietro Buzzega, Lorenzo Bonicelli, Angelo Porrello, Simone Calderara,
- Abstract要約: VLMを適応させながら忘れを緩和する新しい手法であるインクリメンタル・プロンプトラーニングのための連続的生成訓練を提案する。
ゼロショット能力を改善しつつ、新しいタスクに適応する上でのフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 17.614980614656407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of Transformers and Vision-Language Models (VLMs) such as CLIP, large pre-trained models have become a common strategy to enhance performance in Continual Learning scenarios. This led to the development of numerous prompting strategies to effectively fine-tune transformer-based models without succumbing to catastrophic forgetting. However, these methods struggle to specialize the model on domains significantly deviating from the pre-training and preserving its zero-shot capabilities. In this work, we propose Continual Generative training for Incremental prompt-Learning, a novel approach to mitigate forgetting while adapting a VLM, which exploits generative replay to align prompts to tasks. We also introduce a new metric to evaluate zero-shot capabilities within CL benchmarks. Through extensive experiments on different domains, we demonstrate the effectiveness of our framework in adapting to new tasks while improving zero-shot capabilities. Further analysis reveals that our approach can bridge the gap with joint prompt tuning. The codebase is available at https://github.com/aimagelab/mammoth.
- Abstract(参考訳): CLIPのようなトランスフォーマーやビジョンランゲージモデル(VLM)の出現に伴い、大規模な事前学習モデルが継続的な学習シナリオのパフォーマンス向上のための一般的な戦略となっている。
これにより、破滅的な忘れを伴わずに、効果的に微調整トランスフォーマーベースのモデルを構築するための多くの急進的戦略の開発につながった。
しかし、これらの手法は、事前訓練から著しく逸脱し、ゼロショット能力を保っている領域のモデルを専門化するのに苦労する。
本稿では,VLMを適応させながら忘れを緩和する新しい手法であるインクリメンタル・プロンプト学習のための連続生成トレーニングを提案する。
また、CLベンチマーク内でゼロショット機能を評価するための新しい指標も導入する。
異なるドメインに関する広範な実験を通じて、ゼロショット能力を改善しつつ、新しいタスクに適応する上で、我々のフレームワークの有効性を実証する。
さらなる分析により,我々の手法は,ジョイント・プロンプト・チューニングによってギャップを埋めることができることが明らかとなった。
コードベースはhttps://github.com/aimagelab/mammoth.comで公開されている。
関連論文リスト
- Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Can Wikipedia Help Offline Reinforcement Learning? [12.12541097531412]
大規模なオフザシェルフデータセットが不足しているため、微調整強化学習モデルは難しい。
最近の研究では、Transformerアーキテクチャの導入により、オフラインのRLに対処し、その結果を改善している。
オフラインRLタスクを微調整した場合、他の領域(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性について検討する。
論文 参考訳(メタデータ) (2022-01-28T13:55:35Z) - An EM Framework for Online Incremental Learning of Semantic Segmentation [37.94734474090863]
本稿では,新しいクラスのみに画素アノテーションを付加したストリーミング入力データを用いて,大惨な忘れをせずに深いセグメンテーションモデルを適応できる漸進的な学習戦略を提案する。
PASCAL VOC 2012とADE20Kデータセットに対するアプローチを検証するとともに,既存のインクリメンタルメソッドよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T11:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。