論文の概要: Unifying Regularisation Methods for Continual Learning
- arxiv url: http://arxiv.org/abs/2006.06357v2
- Date: Wed, 3 Feb 2021 20:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:53:06.670850
- Title: Unifying Regularisation Methods for Continual Learning
- Title(参考訳): 連続学習のための規則化手法の統一化
- Authors: Frederik Benzing
- Abstract要約: 継続的学習は、複数の異なるタスクを逐次学習するという課題に対処する。
以前のタスクの知識を再アクセスすることなく維持するという目標は、ニューラルネットワークの標準的なSGDトレーニングと激しく対立する。
正規化アプローチは、与えられたタスクを解決するための各パラメータの重要性を測定し、大きな変更から重要なパラメータを保護する。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Learning addresses the challenge of learning a number of different
tasks sequentially. The goal of maintaining knowledge of earlier tasks without
re-accessing them starkly conflicts with standard SGD training for artificial
neural networks. An influential method to tackle this problem without storing
old data are so-called regularisation approaches. They measure the importance
of each parameter for solving a given task and subsequently protect important
parameters from large changes. In the literature, three ways to measure
parameter importance have been put forward and they have inspired a large body
of follow-up work. Here, we present strong theoretical and empirical evidence
that these three methods, Elastic Weight Consolidation (EWC), Synaptic
Intelligence (SI) and Memory Aware Synapses (MAS), are surprisingly similar and
are all linked to the same theoretical quantity. Concretely, we show that,
despite stemming from very different motivations, both SI and MAS approximate
the square root of the Fisher Information, with the Fisher being the
theoretically justified basis of EWC. Moreover, we show that for SI the
relation to the Fisher -- and in fact its performance -- is due to a previously
unknown bias. On top of uncovering unknown similarities and unifying
regularisation approaches, we also demonstrate that our insights enable
practical performance improvements for large batch training.
- Abstract(参考訳): 継続的学習は、複数の異なるタスクを逐次学習するという課題に対処する。
以前のタスクの知識を再アクセスすることなく維持するという目標は、ニューラルネットワークの標準的なSGDトレーニングと激しく対立する。
古いデータを保存せずにこの問題に取り組む方法は、いわゆる正規化アプローチである。
与えられたタスクを解決するために各パラメータの重要性を測定し、その後、重要なパラメータを大きな変更から保護する。
文献では、パラメータの重要度を測定する3つの方法が推進され、彼らは多くのフォローアップ作業に影響を与えた。
ここでは,これら3つの手法,EWC(Elastic Weight Consolidation),SI(Synaptic Intelligence),MAS(Memory Aware Synapses)が驚くほど類似しており,すべて同じ理論量と関連していることを示す。
具体的には、si と mas は、全く異なる動機から生まれたにもかかわらず、フィッシャー情報の平方根を近似し、フィッシャーは理論的に正当化されたewcの基礎であることを示した。
さらに、SI の場合、フィッシャーとの関係(実際、その性能)は以前にも知られていないバイアスによるものであることを示す。
未知の類似点の発見と正規化アプローチの統一に加えて、我々の洞察が大規模バッチトレーニングにおける実用的なパフォーマンス改善を可能にすることを実証する。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Rethinking Bayesian Learning for Data Analysis: The Art of Prior and
Inference in Sparsity-Aware Modeling [20.296566563098057]
信号処理と機械学習のためのスパースモデリングは、20年以上にわたって科学研究の焦点となっている。
本稿では,3つの一般的なデータモデリングツールにスパーシティ・プロモーティング・プリエントを組み込むことの最近の進歩を概観する。
論文 参考訳(メタデータ) (2022-05-28T00:43:52Z) - Differential Privacy and Byzantine Resilience in SGD: Do They Add Up? [6.614755043607777]
本研究では,差分プライバシ(DP)と$(alpha,f)$-ビザンチンレジリエンスを併用して,SGD(Gradient Descent)学習アルゴリズムの分散実装が実現可能であるかを検討する。
これらの手法の直接的な構成は、結果のSGDアルゴリズムがMLモデルのパラメータ数に依存することを保証していることを示す。
論文 参考訳(メタデータ) (2021-02-16T14:10:38Z) - Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint [35.5156045701898]
各タスクの損失関数の2階Taylor近似として定式化することにより、正規化に基づく連続学習の新しい視点を提供する。
この観点から、正規化に基づく連続学習の最適化側面(収束)と一般化特性(有限サンプル保証)を考察する。
論文 参考訳(メタデータ) (2020-06-19T06:08:40Z) - Continual Learning using a Bayesian Nonparametric Dictionary of Weight
Factors [75.58555462743585]
訓練されたニューラルネットワークは、シーケンシャルなタスク設定で破滅的な忘れを経験する傾向がある。
Indian Buffet Process (IBP) に基づく原則的非パラメトリック手法を提案する。
連続学習ベンチマークにおける本手法の有効性を実証し、トレーニングを通して重み要因の配分と再利用方法を分析する。
論文 参考訳(メタデータ) (2020-04-21T15:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。