論文の概要: Continual learning with the neural tangent ensemble
- arxiv url: http://arxiv.org/abs/2408.17394v1
- Date: Fri, 30 Aug 2024 16:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 14:46:39.854667
- Title: Continual learning with the neural tangent ensemble
- Title(参考訳): ニューラル・タンジェント・アンサンブルによる連続学習
- Authors: Ari S. Benjamin, Christian Pehle, Kyle Daruwalla,
- Abstract要約: Nパラメータを持つニューラルネットワークは、N分類器の重み付けアンサンブルとして解釈できることを示す。
過去のデータから各専門家の確率と後続確率を導出する。
驚くべきことに、これらの専門家の後方更新はスケール化され、予測される勾配降下と等価であることがわかった。
- 参考スコア(独自算出の注目度): 0.6137178191238463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A natural strategy for continual learning is to weigh a Bayesian ensemble of fixed functions. This suggests that if a (single) neural network could be interpreted as an ensemble, one could design effective algorithms that learn without forgetting. To realize this possibility, we observe that a neural network classifier with N parameters can be interpreted as a weighted ensemble of N classifiers, and that in the lazy regime limit these classifiers are fixed throughout learning. We term these classifiers the neural tangent experts and show they output valid probability distributions over the labels. We then derive the likelihood and posterior probability of each expert given past data. Surprisingly, we learn that the posterior updates for these experts are equivalent to a scaled and projected form of stochastic gradient descent (SGD) over the network weights. Away from the lazy regime, networks can be seen as ensembles of adaptive experts which improve over time. These results offer a new interpretation of neural networks as Bayesian ensembles of experts, providing a principled framework for understanding and mitigating catastrophic forgetting in continual learning settings.
- Abstract(参考訳): 連続学習の自然な戦略は、固定関数のベイズアンサンブルを重み付けることである。
これは、(単一の)ニューラルネットワークをアンサンブルとして解釈できれば、忘れずに学習する効果的なアルゴリズムを設計できることを示している。
この可能性を実現するために、Nパラメータを持つニューラルネットワーク分類器をN分類器の重み付けアンサンブルとして解釈することができ、遅延状態においてこれらの分類器は学習を通して固定される。
これらの分類器をニューラルネットワークの専門家と呼び、ラベル上で有効な確率分布を出力することを示す。
次に、過去のデータに与えられた各専門家の確率と後続確率を導出する。
驚くべきことに、これらの専門家の後方更新は、ネットワーク上の確率勾配降下(SGD)のスケール化と投影化と等価であることがわかった。
怠け者の体制とは違い、ネットワークは時間とともに改善する適応的な専門家の集まりと見なすことができる。
これらの結果は、ニューラルネットワークを専門家のベイズアンサンブルとして解釈し、連続的な学習環境で破滅的な忘れを理解・緩和するための原則的な枠組みを提供する。
関連論文リスト
- Taming Binarized Neural Networks and Mixed-Integer Programs [2.7624021966289596]
バイナライズされたニューラルネットワークはテーム表現を許容することを示す。
これにより、Bolte et al. のフレームワークを暗黙の微分に使用できる。
このアプローチは、より広範な混合整数プログラムのクラスにも使用することができる。
論文 参考訳(メタデータ) (2023-10-05T21:04:16Z) - Utility-Probability Duality of Neural Networks [4.871730595406078]
本稿では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティに基づく代替的説明を提案する。
基本的な考え方は、学習したニューラルネットワークを確率モデルではなく、順序付きユーティリティ関数として解釈することである。
ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値のSGD学習ダイナミクスを反復過程と見なすことができる。
論文 参考訳(メタデータ) (2023-05-24T08:09:07Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - PAC-Bayesian Learning of Aggregated Binary Activated Neural Networks
with Probabilities over Representations [2.047424180164312]
本研究では,確率論的ニューラルネットワークの予測器としての期待値について検討し,実数値重みによる正規分布を持つ二元活性化ニューラルネットワークの集約に着目した。
我々は、動的プログラミングアプローチのおかげで、深いが狭いニューラルネットワークに対して、正確な計算が引き続き実行可能であることを示す。
論文 参考訳(メタデータ) (2021-10-28T14:11:07Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - FF-NSL: Feed-Forward Neural-Symbolic Learner [70.978007919101]
本稿では,Feed-Forward Neural-Symbolic Learner (FF-NSL) と呼ばれるニューラルシンボリック学習フレームワークを紹介する。
FF-NSLは、ラベル付き非構造化データから解釈可能な仮説を学習するために、Answer Setセマンティクスに基づく最先端のICPシステムとニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2021-06-24T15:38:34Z) - Fast Adaptation with Linearized Neural Networks [35.43406281230279]
ニューラルネットワークの線形化の帰納的バイアスについて検討し,全ネットワーク関数の驚くほどよい要約であることを示した。
この発見に触発されて,これらの帰納的バイアスをネットワークのヤコビアンから設計されたカーネルを通してガウス過程に埋め込む手法を提案する。
この設定では、領域適応は不確実性推定を伴う解釈可能な後方推論の形式を取る。
論文 参考訳(メタデータ) (2021-03-02T03:23:03Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。