論文の概要: On the Theory of Continual Learning with Gradient Descent for Neural Networks
- arxiv url: http://arxiv.org/abs/2510.05573v1
- Date: Tue, 07 Oct 2025 04:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.100056
- Title: On the Theory of Continual Learning with Gradient Descent for Neural Networks
- Title(参考訳): ニューラルネットワークのためのグラディエントDescentを用いた連続学習の理論について
- Authors: Hossein Taheri, Avishek Ghosh, Arya Mazumdar,
- Abstract要約: 本研究では, 連続学習の限界について検討する。
本結果から, 忘れる確率における問題パラメータの相違について, 興味深い現象が明らかとなった。
- 参考スコア(独自算出の注目度): 30.678616374316736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning, the ability of a model to adapt to an ongoing sequence of tasks without forgetting the earlier ones, is a central goal of artificial intelligence. To shed light on its underlying mechanisms, we analyze the limitations of continual learning in a tractable yet representative setting. In particular, we study one-hidden-layer quadratic neural networks trained by gradient descent on an XOR cluster dataset with Gaussian noise, where different tasks correspond to different clusters with orthogonal means. Our results obtain bounds on the rate of forgetting during train and test-time in terms of the number of iterations, the sample size, the number of tasks, and the hidden-layer size. Our results reveal interesting phenomena on the role of different problem parameters in the rate of forgetting. Numerical experiments across diverse setups confirm our results, demonstrating their validity beyond the analyzed settings.
- Abstract(参考訳): 継続学習(Continuous learning)とは、モデルが初期のタスクを忘れずに進行中のタスクに適応する能力である。
本研究は,その基盤となるメカニズムを明らかにするために,学習継続の限界を抽出可能で代表的設定で解析する。
特に,Gussianノイズを持つXORクラスタデータセット上で,勾配降下により訓練された一層2次ニューラルネットワークについて検討した。
実験では, 繰り返し回数, サンプルサイズ, タスク数, 隠蔽層サイズの観点から, 列車中の忘れる率とテスト時間とのバウンダリを得た。
本結果から, 忘れる確率における問題パラメータの相違について, 興味深い現象が明らかとなった。
様々な設定の数値実験により、分析された設定を超える妥当性が示された。
関連論文リスト
- Understanding Activation Patterns in Artificial Neural Networks by
Exploring Stochastic Processes [0.0]
我々はこれまで未利用であったプロセスの枠組みを活用することを提案する。
我々は、実際のニューロンスパイク列車に使用される神経科学技術を活用した、アクティベーション周波数のみに焦点をあてる。
各ネットワークにおけるアクティベーションパターンを記述するパラメータを導出し、アーキテクチャとトレーニングセット間で一貫した差異を明らかにする。
論文 参考訳(メタデータ) (2023-08-01T22:12:30Z) - Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Learning Curves for Sequential Training of Neural Networks:
Self-Knowledge Transfer and Forgetting [9.734033555407406]
我々は,タスクからタスクまでの目標関数を継続的に学習するニューラルネットワークをニューラルネットワークとして検討する。
モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。
同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
論文 参考訳(メタデータ) (2021-12-03T00:25:01Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Latent Network Structure Learning from High Dimensional Multivariate
Point Processes [5.079425170410857]
本研究では,観測データの基盤となる複雑な過程を特徴付けるために,非定常ホークスプロセスの新たなクラスを提案する。
効率のよい最小二乗推定手法を用いて潜在ネットワーク構造を推定する。
シミュレーション研究を通じて提案手法の有効性を実証し, ニューロンスパイクトレインデータセットへの適用について述べる。
論文 参考訳(メタデータ) (2020-04-07T17:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。