論文の概要: Maintaining Plasticity in Deep Continual Learning
- arxiv url: http://arxiv.org/abs/2306.13812v1
- Date: Fri, 23 Jun 2023 23:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 18:59:00.016250
- Title: Maintaining Plasticity in Deep Continual Learning
- Title(参考訳): 深層学習における塑性維持
- Authors: Shibhansh Dohare, J. Fernando Hernandez-Garcia, Parash Rahman, Richard
S. Sutton, A. Rupam Mahmood
- Abstract要約: 連続学習のためのデータセットをタスクのシーケンスとして用いた場合,可塑性の喪失を示す。
実験では, 可塑性の喪失は, 致死量の増大と相関し, 非常に大きな重量, より一般的には単位の多様性の喪失と相関した。
このアルゴリズムは従来のバックプロパゲーションと同じだが、少ない使用単位のごく一部が各例の後に赤くなる。
- 参考スコア(独自算出の注目度): 12.907623582998458
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern deep-learning systems are specialized to problem settings in which
training occurs once and then never again, as opposed to continual-learning
settings in which training occurs continually. If deep-learning systems are
applied in a continual learning setting, then it is well known that they may
fail catastrophically to remember earlier examples. More fundamental, but less
well known, is that they may also lose their ability to adapt to new data, a
phenomenon called \textit{loss of plasticity}. We show loss of plasticity using
the MNIST and ImageNet datasets repurposed for continual learning as sequences
of tasks. In ImageNet, binary classification performance dropped from 89%
correct on an early task down to 77%, or to about the level of a linear
network, on the 2000th task. Such loss of plasticity occurred with a wide range
of deep network architectures, optimizers, and activation functions, and was
not eased by batch normalization or dropout. In our experiments, loss of
plasticity was correlated with the proliferation of dead units, with very large
weights, and more generally with a loss of unit diversity. Loss of plasticity
was substantially eased by $L^2$-regularization, particularly when combined
with weight perturbation (Shrink and Perturb). We show that plasticity can be
fully maintained by a new algorithm -- called $\textit{continual
backpropagation}$ -- which is just like conventional backpropagation except
that a small fraction of less-used units are reinitialized after each example.
- Abstract(参考訳): 現代のディープラーニングシステムは、継続的にトレーニングを行う継続的学習とは対照的に、トレーニングが繰り返される問題の設定に特化している。
ディープラーニングシステムが継続的学習環境に適用される場合、過去の例を思い出すのに壊滅的に失敗することはよく知られている。
より基本的なことは、あまり知られていないが、彼らは新しいデータに適応する能力を失うかもしれないということだ。
MNISTとImageNetのデータセットを用いて,連続学習をタスクのシーケンスとして再利用し,可塑性の喪失を示す。
ImageNetでは、初期タスクではバイナリ分類のパフォーマンスが89%から77%に低下し、2000年タスクでは線形ネットワークのレベルに低下した。
このような可塑性の損失は、幅広いディープネットワークアーキテクチャ、オプティマイザ、アクティベーション関数で発生し、バッチ正規化やドロップアウトでは緩和されなかった。
実験では, 可塑性の喪失は, 死単位の増殖, 非常に大きな重量, より一般に単位の多様性の喪失と相関した。
可塑性の損失は、特に重量摂動(Shrink, Perturb)と組み合わせた場合、$L^2$-regularizationにより著しく緩和された。
可塑性は -- $\textit{continual backpropagation}$ -- と呼ばれる新しいアルゴリズムで完全に維持可能であることを示す。
関連論文リスト
- DASH: Warm-Starting Neural Network Training in Stationary Settings without Loss of Plasticity [11.624569521079426]
我々は,実世界のニューラルネットワークトレーニングを模擬したフレームワークを開発し,静止データ上での暖房開始時の可塑性損失の主な原因としてノイズ記憶を同定する。
そこで本研究では,学習した特徴を保ちながら雑音を選択的に忘れることによって可塑性損失を軽減することを目的としたDASH(Direction-Aware SHrinking)を提案する。
論文 参考訳(メタデータ) (2024-10-30T22:57:54Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Flattening Sharpness for Dynamic Gradient Projection Memory Benefits
Continual Learning [67.99349091593324]
連続学習シナリオにおける減量景観と感度安定性の関係について検討した。
提案手法は,忘れを効果的に軽減しつつ,新しいスキルを習得する能力に優れたベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2021-10-09T15:13:44Z) - Essentials for Class Incremental Learning [43.306374557919646]
CIFAR-100とImageNetのクラスインクリメンタルな学習結果は、アプローチをシンプルに保ちながら、最先端の成果を大きなマージンで改善します。
論文 参考訳(メタデータ) (2021-02-18T18:01:06Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。