論文の概要: Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime
- arxiv url: http://arxiv.org/abs/2207.06475v1
- Date: Wed, 1 Jun 2022 18:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-11 01:06:55.138388
- Title: Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime
- Title(参考訳): 過パラメータ化レジームにおけるランダム直交変換タスクのカタストロフィックフォーミングの解析
- Authors: Daniel Goldfarb, Paul Hand
- Abstract要約: 可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
- 参考スコア(独自算出の注目度): 9.184987303791292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterization is known to permit strong generalization performance in
neural networks. In this work, we provide an initial theoretical analysis of
its effect on catastrophic forgetting in a continual learning setup. We show
experimentally that in permuted MNIST image classification tasks, the
generalization performance of multilayer perceptrons trained by vanilla
stochastic gradient descent can be improved by overparameterization, and the
extent of the performance increase achieved by overparameterization is
comparable to that of state-of-the-art continual learning algorithms. We
provide a theoretical explanation of this effect by studying a qualitatively
similar two-task linear regression problem, where each task is related by a
random orthogonal transformation. We show that when a model is trained on the
two tasks in sequence without any additional regularization, the risk gain on
the first task is small if the model is sufficiently overparameterized.
- Abstract(参考訳): オーバーパラメータ化はニューラルネットワークの強力な一般化性能を可能にすることが知られている。
本研究は,その影響に関する初期理論的解析を,連続学習環境における破滅的忘れ方へ与える。
mnist画像分類課題において,バニラ確率勾配降下法で学習した多層パーセプトロンの一般化性能は過パラメータ化によって向上し,過パラメータ化による性能向上は最先端連続学習アルゴリズムに匹敵することを示した。
我々は,各タスクがランダム直交変換によって関連付けられる定性的に類似する2タスク線形回帰問題を研究することにより,この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、モデルが十分に過パラメータ化されている場合、最初のタスクのリスクゲインは小さくなることを示す。
関連論文リスト
- A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - The Joint Effect of Task Similarity and Overparameterization on
Catastrophic Forgetting -- An Analytical Model [36.766748277141744]
継続的な学習では、破滅的な忘れはタスクの複数の側面に影響される。
これまでの研究は、タスクの類似性やパラメータ化の過度な影響によって、忘れることがどう影響するかを別々に分析してきた。
本稿では,タスクの類似性と過剰なパラメータ化が,分析可能なモデルにおける記憶にどう影響するかを考察する。
論文 参考訳(メタデータ) (2024-01-23T10:16:44Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Regularization, early-stopping and dreaming: a Hopfield-like setup to
address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。
この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文 参考訳(メタデータ) (2023-08-01T15:04:30Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Learning Stochastic Graph Neural Networks with Constrained Variance [18.32587282139282]
グラフニューラルネットワーク(Graph Neural Network, SGNN)は、ランダムグラフ上のデータから表現を学習する情報処理アーキテクチャである。
本稿では,SGNNに対する分散制約付き最適化問題を提案し,予測性能と偏差のバランスをとる。
降下したSGNNパラメータと昇降した双対変数を更新することで問題を解く。
論文 参考訳(メタデータ) (2022-01-29T15:55:58Z) - The curse of overparametrization in adversarial training: Precise
analysis of robust generalization for random features regression [34.35440701530876]
逆向きに訓練されたランダムな特徴モデルでは、高い過度なパラメータ化が堅牢な一般化を損なう可能性があることを示す。
提案理論は, 強靭性に対する過度パラメータ化の非自明な効果を明らかにし, 高過度パラメータ化が強靭性一般化を損なうことを示唆している。
論文 参考訳(メタデータ) (2022-01-13T18:57:30Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。