論文の概要: ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models
- arxiv url: http://arxiv.org/abs/2410.00645v1
- Date: Tue, 1 Oct 2024 12:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:35:05.187436
- Title: ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models
- Title(参考訳): ICL-TSVD:事前学習モデルによる連続学習におけるブリッジ理論と実践
- Authors: Liangzu Peng, Juan Elenter, Joshua Agterberg, Alejandro Ribeiro, René Vidal,
- Abstract要約: 連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
- 参考スコア(独自算出の注目度): 103.45785408116146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of continual learning (CL) is to train a model that can solve multiple tasks presented sequentially. Recent CL approaches have achieved strong performance by leveraging large pre-trained models that generalize well to downstream tasks. However, such methods lack theoretical guarantees, making them prone to unexpected failures. Conversely, principled CL approaches often fail to achieve competitive performance. In this work, we bridge this gap between theory and practice by integrating an empirically strong approach (RanPAC) into a principled framework, Ideal Continual Learner (ICL), designed to prevent forgetting. Specifically, we lift pre-trained features into a higher dimensional space and formulate an over-parametrized minimum-norm least-squares problem. We find that the lifted features are highly ill-conditioned, potentially leading to large training errors (numerical instability) and increased generalization errors (double descent). We address these challenges by continually truncating the singular value decomposition (SVD) of the lifted features. Our approach, termed ICL-TSVD, is stable with respect to the choice of hyperparameters, can handle hundreds of tasks, and outperforms state-of-the-art CL methods on multiple datasets. Importantly, our method satisfies a recurrence relation throughout its continual learning process, which allows us to prove it maintains small training and generalization errors by appropriately truncating a fraction of SVD factors. This results in a stable continual learning method with strong empirical performance and theoretical guarantees.
- Abstract(参考訳): 連続学習(CL)の目標は、連続的に提示される複数のタスクを解決できるモデルを訓練することである。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
逆に、原則付きCLアプローチは、しばしば競争性能を達成するのに失敗する。
本研究では,経験的に強いアプローチ(RanPAC)を原則的枠組みであるICL(Ideal Continual Learner)に統合することにより,理論と実践のギャップを埋める。
具体的には、事前学習された特徴を高次元空間に持ち上げ、過度にパラメータ化された最小ノルム最小二乗問題を定式化する。
持ち上げられた特徴は高度に不調であり、大きなトレーニングエラー(数値不安定)と一般化エラー(二重降下)に繋がる可能性がある。
これらの課題は、持ち上げられた特徴の特異値分解(SVD)を継続的に切り離すことによって解決される。
我々のアプローチはICL-TSVDと呼ばれ、ハイパーパラメータの選択に関して安定しており、数百のタスクを処理でき、複数のデータセット上で最先端のCLメソッドよりも優れています。
重要なこととして,本手法は連続的な学習過程を通じて繰り返し関係を満足させ,SVD因子を適切に選択することにより,学習と一般化の誤差を抑えることができる。
その結果,実験性能と理論的保証が強い安定な連続学習法が得られた。
関連論文リスト
- Prior-free Balanced Replay: Uncertainty-guided Reservoir Sampling for Long-Tailed Continual Learning [8.191971407001034]
長い尾を持つデータストリームから、忘れることなく学習するための、新しいPBRフレームワークを提案する。
我々は、忘れる問題をさらに軽減するために、2つの事前自由なコンポーネントを組み込んだ。
提案手法は3つの標準長尾ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-08-27T11:38:01Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Do Pre-trained Models Benefit Equally in Continual Learning? [25.959813589169176]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。
コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。
本稿では,CLに対する事前学習の体系的導入を提唱する。
論文 参考訳(メタデータ) (2022-10-27T18:03:37Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。