論文の概要: RanPAC: Random Projections and Pre-trained Models for Continual Learning
- arxiv url: http://arxiv.org/abs/2307.02251v3
- Date: Tue, 16 Jan 2024 03:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:07:44.177004
- Title: RanPAC: Random Projections and Pre-trained Models for Continual Learning
- Title(参考訳): RanPAC:継続的学習のためのランダム投影と事前学習モデル
- Authors: Mark D. McDonnell, Dong Gong, Amin Parveneh, Ehsan Abbasnejad, Anton
van den Hengel
- Abstract要約: 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 59.07316955610658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) aims to incrementally learn different tasks (such as
classification) in a non-stationary data stream without forgetting old ones.
Most CL works focus on tackling catastrophic forgetting under a
learning-from-scratch paradigm. However, with the increasing prominence of
foundation models, pre-trained models equipped with informative representations
have become available for various downstream requirements. Several CL methods
based on pre-trained models have been explored, either utilizing pre-extracted
features directly (which makes bridging distribution gaps challenging) or
incorporating adaptors (which may be subject to forgetting). In this paper, we
propose a concise and effective approach for CL with pre-trained models. Given
that forgetting occurs during parameter updating, we contemplate an alternative
approach that exploits training-free random projectors and class-prototype
accumulation, which thus bypasses the issue. Specifically, we inject a frozen
Random Projection layer with nonlinear activation between the pre-trained
model's feature representations and output head, which captures interactions
between features with expanded dimensionality, providing enhanced linear
separability for class-prototype-based CL. We also demonstrate the importance
of decorrelating the class-prototypes to reduce the distribution disparity when
using pre-trained representations. These techniques prove to be effective and
circumvent the problem of forgetting for both class- and domain-incremental
continual learning. Compared to previous methods applied to pre-trained
ViT-B/16 models, we reduce final error rates by between 20% and 62% on seven
class-incremental benchmarks, despite not using any rehearsal memory. We
conclude that the full potential of pre-trained models for simple, effective,
and fast CL has not hitherto been fully tapped. Code is at
github.com/RanPAC/RanPAC.
- Abstract(参考訳): 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を段階的に学習することを目的としている。
ほとんどのCLは、スクラッチから学習するパラダイムの下で破滅的な忘れに対処することに重点を置いています。
しかし、基礎モデルの普及に伴い、様々な下流要求に対して情報表現を備えた事前学習モデルが利用できるようになった。
事前訓練されたモデルに基づくいくつかのCL手法が検討され、事前抽出された特徴を直接利用(ブリッジング分布ギャップを困難にしている)するか、あるいは適応子(忘れられる可能性がある)を取り入れている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
パラメータ更新中に忘れが生じることを考慮し、トレーニング不要なランダムプロジェクタとクラスプロトタイプの蓄積を利用した代替アプローチを考え、この問題を回避した。
具体的には、事前学習したモデルの特徴表現と出力ヘッドの間に非線形に活性化された凍結ランダム投影層を注入し、拡張次元を持つ特徴間の相互作用をキャプチャし、クラスプロトタイプに基づくclの線形分離性を高める。
また,事前学習した表現を用いた場合の分布差を低減するために,クラスプロトタイプのデコレーションの重要性を示す。
これらの手法は効果的なことを示し、クラス・インクリメンタル・ラーニングとドメイン・インクリメンタル・ラーニングの両方で忘れてしまう問題を回避している。
事前学習したViT-B/16モデルと比較して、7つのクラスインクリメンタルベンチマークにおいて、リハーサルメモリを使用しないにもかかわらず、最終エラー率を20%から62%削減する。
我々は、単純で効果的で高速なCLのための事前学習モデルの完全なポテンシャルは、完全にタップされていないと結論付けた。
コードはgithub.com/RanPAC/RanPACにある。
関連論文リスト
- StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z) - Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。
我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。
提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文 参考訳(メタデータ) (2022-04-07T17:58:07Z) - Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning [141.35105358670316]
本研究では,Na"訓練初期相モデルとオラクルモデルとの相違について検討する。
より均一に散らばるように,各クラスの表現を効果的に正規化するクラスワイド・デコレーション(CwD)を提案する。
私たちのCwDは実装が簡単で、既存のメソッドに簡単にプラグインできます。
論文 参考訳(メタデータ) (2021-12-09T07:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。