論文の概要: Continual Learners are Incremental Model Generalizers
- arxiv url: http://arxiv.org/abs/2306.12026v1
- Date: Wed, 21 Jun 2023 05:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 14:45:21.095534
- Title: Continual Learners are Incremental Model Generalizers
- Title(参考訳): 連続学習者はインクリメンタルモデル一般化器である
- Authors: Jaehong Yoon, Sung Ju Hwang, Yue Cao
- Abstract要約: 本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
- 参考スコア(独自算出の注目度): 70.34479702177988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the efficiency and rapid convergence of pre-trained models for
solving downstream tasks, this paper extensively studies the impact of
Continual Learning (CL) models as pre-trainers. In both supervised and
unsupervised CL, we find that the transfer quality of the representation often
increases gradually without noticeable degradation in fine-tuning performance.
This is because CL models can learn improved task-general features when easily
forgetting task-specific knowledge. Based on this observation, we suggest a new
unsupervised CL framework with masked modeling, which aims to capture fluent
task-generic representation during training. Furthermore, we propose a new
fine-tuning scheme, GLobal Attention Discretization (GLAD), that preserves rich
task-generic representation during solving downstream tasks. The model
fine-tuned with GLAD achieves competitive performance and can also be used as a
good pre-trained model itself. We believe this paper breaks the barriers
between pre-training and fine-tuning steps and leads to a sustainable learning
framework in which the continual learner incrementally improves model
generalization, yielding better transfer to unseen tasks.
- Abstract(参考訳): 本稿では,下流課題を解決するための事前学習モデルの効率性と迅速な収束により,継続学習モデル(CL)が事前学習者に与える影響を広く研究する。
教師付きclと教師なしclの両方において,微調整性能の低下を生じさせることなく,表現の転送品質が徐々に増加することが判明した。
これは、CLモデルがタスク固有の知識を忘れやすい場合に、タスク汎用機能を改善することができるためである。
そこで本研究では,学習中の流動的なタスク・ジェネリック表現を捉えることを目的とした,マスク付きモデリングによる教師なしCLフレームワークを提案する。
さらに,下流課題解決時にリッチなタスクジェネリック表現を保存できる新しい微調整方式であるglobal attention discretization (glad)を提案する。
GLADで微調整されたモデルは競争性能を達成し、優れた事前訓練モデルとしても使用できる。
本稿では、事前学習と微調整の障壁を突破し、継続学習者がモデル一般化を漸進的に改善し、見知らぬタスクにより良い移行をもたらす持続可能な学習フレームワークをもたらすと信じている。
関連論文リスト
- ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Momentum-based Weight Interpolation of Strong Zero-Shot Models for
Continual Learning [46.80199921638615]
訓練済みでゼロショット対応の大型モデルは、標準転送と適応タスクの両方でかなりの成功を収めている。
しかし、直感的な微調整により、これらのゼロショットモデルは分布シフトに対する一般化性とロバスト性を失う。
本研究は, ゼロショット能力を持つモデルに適用するために微調整が不十分な場合, 単純な運動量に基づく重み付けが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-06T17:41:39Z) - Task Agnostic Representation Consolidation: a Self-supervised based
Continual Learning Approach [14.674494335647841]
本稿では,タスク非依存およびタスク特化学習に介入するCLのための2段階学習パラダイムを提案する。
我々のトレーニングパラダイムは、メモリや正規化に基づくアプローチに簡単に追加できることを示します。
論文 参考訳(メタデータ) (2022-07-13T15:16:51Z) - Self-Supervised Models are Continual Learners [79.70541692930108]
本研究では, 自己教師付き損失関数を連続学習のための蒸留機構にシームレスに変換可能であることを示す。
我々は,学習した表現の質を大幅に向上させる連続的自己教師型視覚表現学習の枠組みを考案した。
論文 参考訳(メタデータ) (2021-12-08T10:39:13Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Continual Learning From Unlabeled Data Via Deep Clustering [7.704949298975352]
継続的学習は、新しいタスクが到着するたびにモデルをスクラッチから再トレーニングするのではなく、少ない計算とメモリリソースを使って、新しいタスクをインクリメンタルに学習することを目的としている。
クラスタ割り当てから得られた擬似ラベルをモデル更新に用いて,教師なしモードで継続的学習を実現する新たなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T23:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。