論文の概要: Understanding Sparse Feature Updates in Deep Networks using Iterative
Linearisation
- arxiv url: http://arxiv.org/abs/2211.12345v2
- Date: Fri, 26 May 2023 15:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:18:55.121198
- Title: Understanding Sparse Feature Updates in Deep Networks using Iterative
Linearisation
- Title(参考訳): 反復線形化を用いた深層ネットワークにおけるスパース機能更新の理解
- Authors: Adrian Goldwaser and Hong Ge
- Abstract要約: より大規模で深いネットワークが一般化する理由を調べるために,反復線形化学習法を導出する。
様々なケースにおいて、反復線形化トレーニングが標準トレーニングと同等に実行されることを示す。
また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
- 参考スコア(独自算出の注目度): 4.530704014707227
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Larger and deeper networks generalise well despite their increased capacity
to overfit. Understanding why this happens is theoretically and practically
important. One approach has been to look at the infinitely wide limits of such
networks. However, these cannot fully explain finite networks as they do not
learn features and the empirical kernel changes significantly during training
in contrast to infinite networks. In this work, we derive an iterative
linearised training method to investigate this distinction, allowing us to
control for sparse (i.e. infrequent) feature updates and quantify the frequency
of feature learning needed to achieve comparable performance. We justify
iterative linearisation as an interpolation between a finite analog of the
infinite width regime, which does not learn features, and standard gradient
descent training, which does. We also show that it is analogous to a damped
version of the Gauss-Newton algorithm -- a second-order method. We show that in
a variety of cases, iterative linearised training performs on par with standard
training, noting in particular how much less frequent feature learning is
required to achieve comparable performance. We also show that feature learning
is essential for good performance. Since such feature learning inevitably
causes changes in the NTK kernel, it provides direct negative evidence for the
NTK theory, which states the NTK kernel remains constant during training.
- Abstract(参考訳): 大規模でより深いネットワークは、過度に適合する能力の増大にもかかわらず、うまく一般化している。
なぜこの現象が起こるかを理解することは理論上、事実上重要である。
一つのアプローチは、そのようなネットワークの無限に広い限界を見ることである。
しかし、これらは機能や経験的カーネルが無限ネットワークとは対照的にトレーニング中に大きく変化するため、有限ネットワークを完全に説明することはできない。
そこで本研究では,この差分を探索する反復線形化学習手法を考案し,スパース(頻度の低い)機能更新を制御し,同等の性能を達成するのに必要な特徴学習の頻度を定量化する。
特徴を学習しない無限幅レジームの有限アナログと標準勾配降下訓練との補間として反復線形化を正当化する。
また,2次法であるガウスニュートンアルゴリズムの減衰バージョンに類似していることを示す。
様々なケースにおいて、反復線形化トレーニングは標準訓練と同等の性能を発揮することを示し、特に同等の性能を達成するために機能学習の頻度がいかに少ないかに注目した。
また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
このような特徴学習は必然的にNTKカーネルの変化を引き起こすため、NTKカーネルがトレーニング中に一定であることを示すNTK理論の直接的な否定的な証拠を提供する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Rapid Feature Evolution Accelerates Learning in Neural Networks [2.538209532048867]
我々は,勾配降下時のNTKと目標関数とのカーネルアライメント現象を解析した。
より深いネットワークでは、機能進化がより速く、より劇的であることを示す。
また、複数の出力ノードを持つネットワークは、各出力チャネルに対して別個の専用カーネルを開発することも見出した。
論文 参考訳(メタデータ) (2021-05-29T13:50:03Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。