論文の概要: Theory on Forgetting and Generalization of Continual Learning
- arxiv url: http://arxiv.org/abs/2302.05836v1
- Date: Sun, 12 Feb 2023 02:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:16:10.092468
- Title: Theory on Forgetting and Generalization of Continual Learning
- Title(参考訳): 連続学習の忘れと一般化の理論
- Authors: Sen Lin, Peizhong Ju, Yingbin Liang, Ness Shroff
- Abstract要約: 連続学習(CL)は、一連のタスクを学習することを目的としている。
どの要因が重要か、それらが「破滅的な忘れ方」や一般化のパフォーマンスにどのように影響するかについて、理解の欠如がある。
本研究の結果は,最近の研究で興味深い経験的観察結果を説明するだけでなく,CLのより実用的なアルゴリズム設計の動機も示している。
- 参考スコア(独自算出の注目度): 41.85538120246877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL), which aims to learn a sequence of tasks, has
attracted significant recent attention. However, most work has focused on the
experimental performance of CL, and theoretical studies of CL are still
limited. In particular, there is a lack of understanding on what factors are
important and how they affect "catastrophic forgetting" and generalization
performance. To fill this gap, our theoretical analysis, under
overparameterized linear models, provides the first-known explicit form of the
expected forgetting and generalization error. Further analysis of such a key
result yields a number of theoretical explanations about how
overparameterization, task similarity, and task ordering affect both forgetting
and generalization error of CL. More interestingly, by conducting experiments
on real datasets using deep neural networks (DNNs), we show that some of these
insights even go beyond the linear models and can be carried over to practical
setups. In particular, we use concrete examples to show that our results not
only explain some interesting empirical observations in recent studies, but
also motivate better practical algorithm designs of CL.
- Abstract(参考訳): 一連のタスクの学習を目的とした連続学習(cl)が近年注目されている。
しかし、ほとんどの研究はCLの実験的な性能に焦点を当てており、CLの理論的研究はまだ限られている。
特に、どの要因が重要か、それらが「破滅的忘れ」と一般化性能にどのように影響するかについて、理解の欠如がある。
このギャップを埋めるために、我々の理論解析は、過度パラメータ化された線形モデルの下で、期待される忘れと一般化の誤差の最初の明らかな形式を提供する。
このような重要な結果のさらなる分析は、CLの過度パラメータ化、タスク類似性、タスク順序付けが忘れと一般化の誤りにどのように影響するかに関する多くの理論的説明をもたらす。
さらに興味深いことに、ディープニューラルネットワーク(DNN)を用いた実際のデータセットの実験を行うことで、これらの洞察のいくつかが線形モデルを超えていて、実用的な設定に受け継がれることを示す。
特に,本研究では,最近の研究で興味深い経験的観察結果を説明するだけでなく,CLの実用的なアルゴリズム設計の動機付けも行なっている。
関連論文リスト
- Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。
連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。
MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。
その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文 参考訳(メタデータ) (2024-08-29T23:22:40Z) - InfoNCE: Identifying the Gap Between Theory and Practice [15.744372232355]
異方性設定における潜伏因子を確実に発見できるInfoNCEの一般化であるAnInfoNCEを紹介する。
CIFAR10 と ImageNet では,AnInfoNCE がダウンストリーム精度を犠牲にすることなく,以前に崩壊した情報の回復を増大させることを示す。
論文 参考訳(メタデータ) (2024-06-28T16:08:26Z) - Theory on Mixture-of-Experts in Continual Learning [72.42497633220547]
継続学習(CL)は、時間とともに現れる新しいタスクに適応する能力のため、大きな注目を集めている。
モデルが新しいタスクに適応するにつれて、(古いタスクの)破滅的な忘れがCLの大きな問題として認識されるようになった。
MoEモデルは近年,ゲーティングネットワークを用いることで,CLの破滅的忘れを効果的に軽減することが示されている。
論文 参考訳(メタデータ) (2024-06-24T08:29:58Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。
モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文 参考訳(メタデータ) (2022-11-27T01:53:29Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。