論文の概要: Learning Curves for Sequential Training of Neural Networks:
Self-Knowledge Transfer and Forgetting
- arxiv url: http://arxiv.org/abs/2112.01653v1
- Date: Fri, 3 Dec 2021 00:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 15:24:07.216807
- Title: Learning Curves for Sequential Training of Neural Networks:
Self-Knowledge Transfer and Forgetting
- Title(参考訳): ニューラルネットワークのシーケンシャルトレーニングのための学習曲線:自己知識伝達と予測
- Authors: Ryo Karakida and Shotaro Akaho
- Abstract要約: 我々は,タスクからタスクまでの目標関数を継続的に学習するニューラルネットワークをニューラルネットワークとして検討する。
モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。
同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
- 参考スコア(独自算出の注目度): 9.734033555407406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential training from task to task is becoming one of the major objects in
deep learning applications such as continual learning and transfer learning.
Nevertheless, it remains unclear under what conditions the trained model's
performance improves or deteriorates. To deepen our understanding of sequential
training, this study provides a theoretical analysis of generalization
performance in a solvable case of continual learning. We consider neural
networks in the neural tangent kernel (NTK) regime that continually learn
target functions from task to task, and investigate the generalization by using
an established statistical mechanical analysis of kernel ridge-less regression.
We first show characteristic transitions from positive to negative transfer.
More similar targets above a specific critical value can achieve positive
knowledge transfer for the subsequent task while catastrophic forgetting occurs
even with very similar targets. Next, we investigate a variant of continual
learning where the model learns the same target function in multiple tasks.
Even for the same target, the trained model shows some transfer and forgetting
depending on the sample size of each task. We can guarantee that the
generalization error monotonically decreases from task to task for equal sample
sizes while unbalanced sample sizes deteriorate the generalization. We
respectively refer to these improvement and deterioration as self-knowledge
transfer and forgetting, and empirically confirm them in realistic training of
deep neural networks as well.
- Abstract(参考訳): タスクからタスクへのシーケンシャルトレーニングは,連続学習や転帰学習といった深層学習アプリケーションにおいて,主要な対象の1つになりつつある。
にもかかわらず、どの条件下で訓練されたモデルの性能が改善するか劣化するかは未だ不明である。
本研究は, 逐次学習の理解を深めるために, 連続学習の解決可能な場合における一般化性能の理論解析を行う。
我々は,タスクからタスクまでの目標関数を継続的に学習するNTK(Neural Tangent kernel)システムにおけるニューラルネットワークについて検討し,カーネルリッジレス回帰の統計的解析を用いて一般化について検討する。
まず、正から負への特性遷移を示す。
特定のクリティカル値以上のより類似したターゲットは、非常に類似したターゲットでも破滅的な忘れる間、後続のタスクのポジティブな知識転送を達成することができる。
次に、モデルが複数のタスクで同じターゲット関数を学習する連続学習の変種について検討する。
同じターゲットであっても、トレーニングされたモデルは、各タスクのサンプルサイズに応じて、何らかの転送と忘れを見せる。
非バランスなサンプルサイズが一般化を悪化させつつ, 一般化誤差がタスクからタスクへ等しく減少することを保証できる。
我々は,これらの改善と劣化を自己認識伝達と忘れることと呼び,深層ニューラルネットワークのリアルトレーニングにおいても経験的に確認する。
関連論文リスト
- ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - On the Convergence of Shallow Neural Network Training with Randomly
Masked Neurons [11.119895959906085]
密度の浅いニューラルネットワークを前提として、ランダムに選択された関数の作成、トレーニング、組み合わせに重点を置いています。
i)$ theworks' Neural kernel, $ii)$ the surrogate function' gradient, and $iii)$ surrogate functionのサンプリングと組み合わせの仕方を解析することにより、トレーニングエラーの線形収束率を証明できる。
固定されたニューロン選択確率では、サロゲートモデルの数が増えるにつれて誤差項は減少し、局所的なトレーニングステップの数が増えるにつれて増加する。
論文 参考訳(メタデータ) (2021-12-05T19:51:14Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - A study on the plasticity of neural networks [21.43675319928863]
連続学習における可塑性の喪失の意味について論じる。
そこで本研究では,データ分布と微調整したデータから事前学習したモデルが,新たな初期化モデルと同じ一般化に到達しないことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:21:06Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Minimax Lower Bounds for Transfer Learning with Linear and One-hidden
Layer Neural Networks [27.44348371795822]
転送学習の限界を特徴付けるための統計的ミニマックスフレームワークを開発する。
ラベル付きソース数とターゲットデータの関数として,任意のアルゴリズムで達成可能なターゲット一般化誤差に対して,低いバウンドを導出する。
論文 参考訳(メタデータ) (2020-06-16T22:49:26Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。