Fugu-MT 論文翻訳(概要): RanPAC: Random Projections and Pre-trained Models for Continual Learning

論文の概要: RanPAC: Random Projections and Pre-trained Models for Continual Learning

arxiv url: http://arxiv.org/abs/2307.02251v2
Date: Fri, 8 Dec 2023 03:52:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 18:37:31.282761
Title: RanPAC: Random Projections and Pre-trained Models for Continual Learning
Title（参考訳）: RanPAC:継続的学習のためのランダム投影と事前学習モデル
Authors: Mark D. McDonnell, Dong Gong, Amin Parveneh, Ehsan Abbasnejad, Anton van den Hengel
Abstract要約: 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
参考スコア（独自算出の注目度）: 59.07316955610658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continual learning (CL) aims to incrementally learn different tasks (such as classification) in a non-stationary data stream without forgetting old ones. Most CL works focus on tackling catastrophic forgetting under a learning-from-scratch paradigm. However, with the increasing prominence of foundation models, pre-trained models equipped with informative representations have become available for various downstream requirements. Several CL methods based on pre-trained models have been explored, either utilizing pre-extracted features directly (which makes bridging distribution gaps challenging) or incorporating adaptors (which may be subject to forgetting). In this paper, we propose a concise and effective approach for CL with pre-trained models. Given that forgetting occurs during parameter updating, we contemplate an alternative approach that exploits training-free random projectors and class-prototype accumulation, which thus bypasses the issue. Specifically, we inject a frozen Random Projection layer with nonlinear activation between the pre-trained model's feature representations and output head, which captures interactions between features with expanded dimensionality, providing enhanced linear separability for class-prototype-based CL. We also demonstrate the importance of decorrelating the class-prototypes to reduce the distribution disparity when using pre-trained representations. These techniques prove to be effective and circumvent the problem of forgetting for both class- and domain-incremental continual learning. Compared to previous methods applied to pre-trained ViT-B/16 models, we reduce final error rates by between 10% and 62% on seven class-incremental benchmarks, despite not using any rehearsal memory. We conclude that the full potential of pre-trained models for simple, effective, and fast CL has not hitherto been fully tapped. Code is at github.com/RanPAC/RanPAC.
Abstract（参考訳）: 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を段階的に学習することを目的としている。ほとんどのCLは、スクラッチから学習するパラダイムの下で破滅的な忘れに対処することに重点を置いています。しかし、基礎モデルの普及に伴い、様々な下流要求に対して情報表現を備えた事前学習モデルが利用できるようになった。事前訓練されたモデルに基づくいくつかのCL手法が検討され、事前抽出された特徴を直接利用(ブリッジング分布ギャップを困難にしている)するか、あるいは適応子(忘れられる可能性がある)を取り入れている。本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。パラメータ更新中に忘れが生じることを考慮し、トレーニング不要なランダムプロジェクタとクラスプロトタイプの蓄積を利用した代替アプローチを考え、この問題を回避した。具体的には、事前学習したモデルの特徴表現と出力ヘッドの間に非線形に活性化された凍結ランダム投影層を注入し、拡張次元を持つ特徴間の相互作用をキャプチャし、クラスプロトタイプに基づくclの線形分離性を高める。また,事前学習した表現を用いた場合の分布差を低減するために,クラスプロトタイプのデコレーションの重要性を示す。これらの手法は効果的なことを示し、クラス・インクリメンタル・ラーニングとドメイン・インクリメンタル・ラーニングの両方で忘れてしまう問題を回避している。事前学習したViT-B/16モデルと比較して、7つのクラスインクリメンタルベンチマークにおいて、リハーサルメモリを使用しないにもかかわらず、最終エラー率を10%から62%削減する。我々は、単純で効果的で高速なCLのための事前学習モデルの完全なポテンシャルは、完全にタップされていないと結論付けた。コードはgithub.com/RanPAC/RanPACにある。

関連論文リスト

TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文参考訳（メタデータ） (2024-10-01T12:58:37Z)
StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文参考訳（メタデータ） (2024-02-25T13:53:49Z)
Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文参考訳（メタデータ） (2023-12-13T13:11:44Z)
FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-23T17:12:01Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。 Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文参考訳（メタデータ） (2023-03-09T08:57:01Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Foundational Models for Continual Learning: An Empirical Study of Latent Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文参考訳（メタデータ） (2022-04-30T19:11:37Z)
Class-Incremental Learning with Strong Pre-trained Models [97.84755144148535]
CIL(Class-incremental Learning)は、少数のクラス(ベースクラス)から始まる設定で広く研究されている。我々は、多数のベースクラスで事前訓練された強力なモデルから始まるCILの実証済み実世界の設定について検討する。提案手法は、解析されたCIL設定すべてに頑健で一般化されている。
論文参考訳（メタデータ） (2022-04-07T17:58:07Z)
Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning [141.35105358670316]
本研究では,Na"訓練初期相モデルとオラクルモデルとの相違について検討する。より均一に散らばるように,各クラスの表現を効果的に正規化するクラスワイド・デコレーション(CwD)を提案する。私たちのCwDは実装が簡単で、既存のメソッドに簡単にプラグインできます。
論文参考訳（メタデータ） (2021-12-09T07:20:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。