論文の概要: On the Diminishing Returns of Width for Continual Learning
- arxiv url: http://arxiv.org/abs/2403.06398v1
- Date: Mon, 11 Mar 2024 03:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:33:39.603318
- Title: On the Diminishing Returns of Width for Continual Learning
- Title(参考訳): 連続学習における幅の回帰の低下について
- Authors: Etash Guha, Vihan Lakshman
- Abstract要約: フィードフォワードネットワーク(FFN)において、幅が直接記憶に関連があることを証明するために連続学習理論を解析する。
具体的には, ネットワーク幅の増大と, ネットワーク幅の増大が収率の低下を実証する。
- 参考スコア(独自算出の注目度): 3.4616343332323596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep neural networks have demonstrated groundbreaking performance in
various settings, these models often suffer from \emph{catastrophic forgetting}
when trained on new tasks in sequence. Several works have empirically
demonstrated that increasing the width of a neural network leads to a decrease
in catastrophic forgetting but have yet to characterize the exact relationship
between width and continual learning. We design one of the first frameworks to
analyze Continual Learning Theory and prove that width is directly related to
forgetting in Feed-Forward Networks (FFN). Specifically, we demonstrate that
increasing network widths to reduce forgetting yields diminishing returns. We
empirically verify our claims at widths hitherto unexplored in prior studies
where the diminishing returns are clearly observed as predicted by our theory.
- Abstract(参考訳): ディープニューラルネットワークは様々な設定で画期的な性能を示してきたが、これらのモデルは、新しいタスクをシーケンスでトレーニングすると、しばしば 'emph{catastrophic forgetting' に悩まされる。
いくつかの研究は、ニューラルネットワークの幅の増大が破滅的な忘れ込みの減少につながることを実証しているが、幅と連続学習の正確な関係を特徴づけていないことを実証している。
本研究では,連続学習理論を解析するための最初のフレームワークの一つを設計し,フィードフォワードネットワーク(FFN)において,幅が直接関連していることを証明する。
具体的には,ネットワーク幅を増加させることで,再帰性が低下することを示す。
我々は,先行研究において,予測したように減少する回帰が明らかに観察されるような幅での主張を実証的に検証する。
関連論文リスト
- Network Degeneracy as an Indicator of Training Performance: Comparing
Finite and Infinite Width Angle Predictions [3.04585143845864]
ネットワークの深層化が進むにつれ、ネットワークは縮退しやすくなっている。
完全に接続されたReLUネットワークアーキテクチャのデジェネリシーのレベルを正確に予測できる単純なアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-06-02T13:02:52Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean
Field Neural Networks [47.73646927060476]
広義だが有限な特徴学習ニューラルネットワークにおける有限幅効果のダイナミクスを解析する。
我々の結果は、特徴学習の強みにおいて非摂動的である。
論文 参考訳(メタデータ) (2023-04-06T23:11:49Z) - Wide Neural Networks Forget Less Catastrophically [39.907197907411266]
ニューラルネットワークアーキテクチャの"幅"が破滅的忘れに及ぼす影響について検討する。
ネットワークの学習力学を様々な観点から研究する。
論文 参考訳(メタデータ) (2021-10-21T23:49:23Z) - The Limitations of Large Width in Neural Networks: A Deep Gaussian
Process Perspective [34.67386186205545]
本稿では、ニューラルネットワークの一般化による容量と幅をディープガウス過程(ディープGP)に分離する。
驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上より浅くなることを証明する。
GP動作を制限する前にテストセットのパフォーマンスを最大化する「スイートスポット」があることが、非パラメトリックディープGPの場合、幅 = 1 または幅 = 2 で発生する適応性を妨げている。
論文 参考訳(メタデータ) (2021-06-11T17:58:58Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。