論文の概要: Elephant Neural Networks: Born to Be a Continual Learner
- arxiv url: http://arxiv.org/abs/2310.01365v1
- Date: Mon, 2 Oct 2023 17:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:29:13.543985
- Title: Elephant Neural Networks: Born to Be a Continual Learner
- Title(参考訳): elephant neural networks: 継続的学習者として生まれた
- Authors: Qingfeng Lan, A. Rupam Mahmood
- Abstract要約: 破滅的な忘れ物は、何十年にもわたって継続的な学習にとって重要な課題である。
ニューラルネットワークのトレーニング力学におけるアクティベーション機能の役割と,その破滅的忘れに対する影響について検討した。
古典的な活性化関数を象の活性化関数に置き換えることで、破滅的な忘れ物に対するニューラルネットワークのレジリエンスを大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 7.210328077827388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting remains a significant challenge to continual learning
for decades. While recent works have proposed effective methods to mitigate
this problem, they mainly focus on the algorithmic side. Meanwhile, we do not
fully understand what architectural properties of neural networks lead to
catastrophic forgetting. This study aims to fill this gap by studying the role
of activation functions in the training dynamics of neural networks and their
impact on catastrophic forgetting. Our study reveals that, besides sparse
representations, the gradient sparsity of activation functions also plays an
important role in reducing forgetting. Based on this insight, we propose a new
class of activation functions, elephant activation functions, that can generate
both sparse representations and sparse gradients. We show that by simply
replacing classical activation functions with elephant activation functions, we
can significantly improve the resilience of neural networks to catastrophic
forgetting. Our method has broad applicability and benefits for continual
learning in regression, class incremental learning, and reinforcement learning
tasks. Specifically, we achieves excellent performance on Split MNIST dataset
in just one single pass, without using replay buffer, task boundary
information, or pre-training.
- Abstract(参考訳): 破滅的な忘れ物は、数十年にわたって継続的な学習にとって重要な課題である。
近年の研究ではこの問題を軽減する効果的な手法が提案されているが、アルゴリズム的な側面に重点を置いている。
一方で、ニューラルネットワークのアーキテクチャ的性質が破滅的な忘れに繋がるかどうか、私たちは完全には理解していません。
本研究では,ニューラルネットワークのトレーニングダイナミクスにおけるアクティベーション機能の役割と,その破壊的忘れ方への影響について検討することで,このギャップを埋めることを目的とする。
本研究は, 疎表現に加えて, 活性化関数の勾配空間性も, 忘れの軽減に重要な役割を果たすことを明らかにした。
この知見に基づき, スパース表現とスパース勾配の両方を生成できる新しい活性化関数であるエレファント活性化関数を提案する。
古典的な活性化関数を象の活性化関数に置き換えることで、破滅的な忘れ物に対するニューラルネットワークのレジリエンスを大幅に改善できることを示す。
本手法は,回帰学習,クラスインクリメンタル学習,強化学習タスクにおいて,幅広い適用性と利点を有する。
具体的には、リプレイバッファやタスク境界情報、事前学習を使わずに、単一のパスでSplit MNISTデータセット上で優れたパフォーマンスを実現する。
関連論文リスト
- Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Evaluating CNN with Oscillatory Activation Function [0.0]
画像から高次元の複雑な特徴を学習できるCNNは、アクティベーション関数によって導入された非線形性である。
本稿では、発振活性化関数(GCU)と、ReLu、PReLu、Mishなどの一般的なアクティベーション関数を用いて、MNISTおよびCIFAR10データセット上でのCNNアーキテクチャALexNetの性能について検討する。
論文 参考訳(メタデータ) (2022-11-13T11:17:13Z) - Energy-based Latent Aligner for Incremental Learning [83.0135278697976]
ディープラーニングモデルは、新しいタスクを漸進的に学習しながら、以前の知識を忘れる傾向があります。
この振る舞いは、新しいタスクに最適化されたパラメータ更新が、古いタスクに適したアップデートとうまく一致しない可能性があるため現れます。
ELI: インクリメンタルラーニングのためのエネルギーベースラテントアリグナーを提案する。
論文 参考訳(メタデータ) (2022-03-28T17:57:25Z) - Sparsity and Heterogeneous Dropout for Continual Learning in the Null
Space of Neural Activations [36.24028295650668]
非定常的な入力データストリームからの連続的/長期的学習は知性の基盤である。
ディープニューラルネットワークは、新しいものを学ぶ際に、これまで学んだ情報を忘れる傾向がある。
近年、ディープニューラルネットワークにおける破滅的な忘れを乗り越えることが、研究の活発な分野となっている。
論文 参考訳(メタデータ) (2022-03-12T21:12:41Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Advantages of biologically-inspired adaptive neural activation in RNNs
during learning [10.357949759642816]
生体ニューロンの入力周波数応答曲線にインスパイアされた非線形活性化関数のパラメトリックファミリーを導入する。
アクティベーション適応はタスク固有のソリューションを提供し、場合によっては学習速度と性能の両方を改善する。
論文 参考訳(メタデータ) (2020-06-22T13:49:52Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z) - A survey on modern trainable activation functions [0.0]
本稿では,訓練可能なアクティベーション関数の分類法を提案し,近年のモデルと過去のモデルの共通性と特異性を強調した。
提案手法の多くは、固定的な(訓練不能な)アクティベーション関数を使用するニューロン層の追加と等価であることを示す。
論文 参考訳(メタデータ) (2020-05-02T12:38:43Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。