論文の概要: Maintaining Plasticity in Continual Learning via Regenerative Regularization
- arxiv url: http://arxiv.org/abs/2308.11958v3
- Date: Thu, 24 Oct 2024 23:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:08.045979
- Title: Maintaining Plasticity in Continual Learning via Regenerative Regularization
- Title(参考訳): 再生規則化による連続学習における塑性維持
- Authors: Saurabh Kumar, Henrik Marklund, Benjamin Van Roy,
- Abstract要約: 連続学習において、可塑性とは、エージェントが新しい情報に迅速に適応できる能力を指す。
損失関数 L2 を初期パラメータに対して正規化することにより,可塑性を維持するための簡単な手法 L2 Init を提案する。
- 参考スコア(独自算出の注目度): 18.359559397572742
- License:
- Abstract: In continual learning, plasticity refers to the ability of an agent to quickly adapt to new information. Neural networks are known to lose plasticity when processing non-stationary data streams. In this paper, we propose L2 Init, a simple approach for maintaining plasticity by incorporating in the loss function L2 regularization toward initial parameters. This is very similar to standard L2 regularization (L2), the only difference being that L2 regularizes toward the origin. L2 Init is simple to implement and requires selecting only a single hyper-parameter. The motivation for this method is the same as that of methods that reset neurons or parameter values. Intuitively, when recent losses are insensitive to particular parameters, these parameters should drift toward their initial values. This prepares parameters to adapt quickly to new tasks. On problems representative of different types of nonstationarity in continual supervised learning, we demonstrate that L2 Init most consistently mitigates plasticity loss compared to previously proposed approaches.
- Abstract(参考訳): 連続学習において、可塑性とは、エージェントが新しい情報に迅速に適応できる能力を指す。
ニューラルネットワークは、非定常データストリームを処理する際に可塑性を失うことが知られている。
本稿では,初期パラメータに対する損失関数L2正則化を組み込んで,可塑性維持のための簡単なアプローチであるL2 Initを提案する。
これは標準 L2 正規化 (L2) と非常によく似ているが、唯一の違いは L2 が原点に向かって正規化することである。
L2 Initは実装が簡単で、単一のハイパーパラメータのみを選択する必要がある。
この手法の動機は、ニューロンやパラメータ値をリセットする手法と同じである。
直感的には、最近の損失が特定のパラメータに無関心である場合、これらのパラメータは初期値に向かってドリフトすべきである。
これは新しいタスクに迅速に適応するためのパラメータを準備します。
連続的教師付き学習における様々な非定常性を表す問題について、L2 Initは、これまで提案されたアプローチと比較して、最も一貫して可塑性損失を緩和することを示した。
関連論文リスト
- Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Biologically Plausible Training Mechanisms for Self-Supervised Learning
in Deep Networks [14.685237010856953]
我々は,深層ネットワークにおける自己教師付き学習(SSL)のための生物学的に妥当なトレーニング機構を開発する。
バックパゲーションの2つの選択肢のうちの1つを用いて学習を行うことができることを示す。
論文 参考訳(メタデータ) (2021-09-30T12:56:57Z) - On Generalization of Adaptive Methods for Over-parameterized Linear
Regression [27.156348760303864]
オーバーパラメータ化線形回帰設定における適応手法の性能を特徴付けることを目的としている。
オーバーパラメータ化線形回帰とディープニューラルネットワークに関する実験は、この理論を支持する。
論文 参考訳(メタデータ) (2020-11-28T04:19:32Z) - Deep Low-rank plus Sparse Network for Dynamic MR Imaging [18.09395940969876]
動的MR再構成のためのモデルベース低ランク+スパースネットワークL+S-Netを提案する。
振り返りおよび将来的な心血管データセットの実験により、提案モデルは最先端のCSおよび既存のディープラーニング手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-10-26T15:55:24Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - Regularized linear autoencoders recover the principal components,
eventually [15.090789983727335]
正規化を適切に訓練すると、線形オートエンコーダが最適な表現を学習できることが示される。
この収束は, 潜伏次元の増加に伴って悪化する条件条件が原因で遅くなることを示す。
勾配降下更新を簡易に修正し、経験的に大幅に高速化する。
論文 参考訳(メタデータ) (2020-07-13T23:08:25Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。