論文の概要: Theory on Forgetting and Generalization of Continual Learning
- arxiv url: http://arxiv.org/abs/2302.05836v1
- Date: Sun, 12 Feb 2023 02:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:16:10.092468
- Title: Theory on Forgetting and Generalization of Continual Learning
- Title(参考訳): 連続学習の忘れと一般化の理論
- Authors: Sen Lin, Peizhong Ju, Yingbin Liang, Ness Shroff
- Abstract要約: 連続学習(CL)は、一連のタスクを学習することを目的としている。
どの要因が重要か、それらが「破滅的な忘れ方」や一般化のパフォーマンスにどのように影響するかについて、理解の欠如がある。
本研究の結果は,最近の研究で興味深い経験的観察結果を説明するだけでなく,CLのより実用的なアルゴリズム設計の動機も示している。
- 参考スコア(独自算出の注目度): 41.85538120246877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL), which aims to learn a sequence of tasks, has
attracted significant recent attention. However, most work has focused on the
experimental performance of CL, and theoretical studies of CL are still
limited. In particular, there is a lack of understanding on what factors are
important and how they affect "catastrophic forgetting" and generalization
performance. To fill this gap, our theoretical analysis, under
overparameterized linear models, provides the first-known explicit form of the
expected forgetting and generalization error. Further analysis of such a key
result yields a number of theoretical explanations about how
overparameterization, task similarity, and task ordering affect both forgetting
and generalization error of CL. More interestingly, by conducting experiments
on real datasets using deep neural networks (DNNs), we show that some of these
insights even go beyond the linear models and can be carried over to practical
setups. In particular, we use concrete examples to show that our results not
only explain some interesting empirical observations in recent studies, but
also motivate better practical algorithm designs of CL.
- Abstract(参考訳): 一連のタスクの学習を目的とした連続学習(cl)が近年注目されている。
しかし、ほとんどの研究はCLの実験的な性能に焦点を当てており、CLの理論的研究はまだ限られている。
特に、どの要因が重要か、それらが「破滅的忘れ」と一般化性能にどのように影響するかについて、理解の欠如がある。
このギャップを埋めるために、我々の理論解析は、過度パラメータ化された線形モデルの下で、期待される忘れと一般化の誤差の最初の明らかな形式を提供する。
このような重要な結果のさらなる分析は、CLの過度パラメータ化、タスク類似性、タスク順序付けが忘れと一般化の誤りにどのように影響するかに関する多くの理論的説明をもたらす。
さらに興味深いことに、ディープニューラルネットワーク(DNN)を用いた実際のデータセットの実験を行うことで、これらの洞察のいくつかが線形モデルを超えていて、実用的な設定に受け継がれることを示す。
特に,本研究では,最近の研究で興味深い経験的観察結果を説明するだけでなく,CLの実用的なアルゴリズム設計の動機付けも行なっている。
関連論文リスト
- Class-wise Generalization Error: an Information-Theoretic Analysis [22.877440350595222]
本稿では,各クラスの一般化性能を定量化するクラス一般化誤差について検討する。
我々は、異なるニューラルネットワークにおける提案した境界を実験的に検証し、それらが複雑なクラス一般化エラーの振る舞いを正確に捉えていることを示す。
論文 参考訳(メタデータ) (2024-01-05T17:05:14Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Learn to Accumulate Evidence from All Training Samples: Theory and
Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。
既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。
我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文 参考訳(メタデータ) (2023-06-19T18:27:12Z) - A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。
モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文 参考訳(メタデータ) (2022-11-27T01:53:29Z) - Beyond Supervised Continual Learning: a Review [69.9674326582747]
連続学習(Continuous Learning, CL)は、定常データ分布の通常の仮定を緩和または省略する機械学習のフレーバーである。
データ分布の変化は、いわゆる破滅的な忘れ(CF)効果、すなわち、過去の知識の突然の喪失を引き起こす可能性がある。
本稿では、CLを他の環境で研究する文献をレビューする。例えば、監督を減らした学習、完全に教師なしの学習、強化学習などである。
論文 参考訳(メタデータ) (2022-08-30T14:44:41Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Few-Shot Unsupervised Continual Learning through Meta-Examples [21.954394608030388]
教師なしメタコンチネンタル学習とタスクのバランスが取れない新しい複雑な設定を導入する。
我々は、破滅的な忘れを同時に軽減し、新しいタスクへの一般化を優先するメタラーニング手法を利用する。
数ショットの学習ベンチマークによる実験結果から, 教師付きケースと比較して, 競争性能が向上した。
論文 参考訳(メタデータ) (2020-09-17T07:02:07Z) - Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint [35.5156045701898]
各タスクの損失関数の2階Taylor近似として定式化することにより、正規化に基づく連続学習の新しい視点を提供する。
この観点から、正規化に基づく連続学習の最適化側面(収束)と一般化特性(有限サンプル保証)を考察する。
論文 参考訳(メタデータ) (2020-06-19T06:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。