論文の概要: Learning Deep Neural Networks by Iterative Linearisation
- arxiv url: http://arxiv.org/abs/2211.12345v1
- Date: Tue, 22 Nov 2022 15:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:58:35.467370
- Title: Learning Deep Neural Networks by Iterative Linearisation
- Title(参考訳): 反復線形化によるディープニューラルネットワークの学習
- Authors: Adrian Goldwaser and Hong Ge
- Abstract要約: 本研究では,深層ニューラルネットワークの反復線形化学習法を提案する。
反復線形化トレーニングがうまく機能する予備的な結果をいくつか示し、特に、同等のパフォーマンスを達成するのに機能学習がどの程度必要かに注目した。
- 参考スコア(独自算出の注目度): 4.530704014707227
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The excellent real-world performance of deep neural networks has received
increasing attention. Despite the capacity to overfit significantly, such large
models work better than smaller ones. This phenomenon is often referred to as
the scaling law by practitioners. It is of fundamental interest to study why
the scaling law exists and how it avoids/controls overfitting. One approach has
been looking at infinite width limits of neural networks (e.g., Neural Tangent
Kernels, Gaussian Processes); however, in practise, these do not fully explain
finite networks as their infinite counterparts do not learn features.
Furthermore, the empirical kernel for finite networks (i.e., the inner product
of feature vectors), changes significantly during training in contrast to
infinite width networks. In this work we derive an iterative linearised
training method. We justify iterative lineralisation as an interpolation
between finite analogs of the infinite width regime, which do not learn
features, and standard gradient descent training which does. We show some
preliminary results where iterative linearised training works well, noting in
particular how much feature learning is required to achieve comparable
performance. We also provide novel insights into the training behaviour of
neural networks.
- Abstract(参考訳): ディープニューラルネットワークの優れた実世界性能が注目されている。
過度に適合する能力にもかかわらず、このような大きなモデルは小さなモデルよりもうまく機能する。
この現象は、しばしば実践者によってスケーリング法と呼ばれる。
スケーリング法則が存在する理由と、過度な適合を避ける/制御する方法を研究することは、基本的な関心事である。
一つのアプローチは、ニューラルネットワークの無限幅限界(例えば、神経接核、ガウス過程)を検討することであるが、実際、それらは有限ネットワークが特徴を学習しないため、完全には説明できない。
さらに、有限ネットワーク(すなわち特徴ベクトルの内部積)に対する経験的カーネルは、無限幅ネットワークとは対照的にトレーニング中に大きく変化する。
本研究では,反復線形化学習法を導出する。
我々は,無限幅法則の有限類型間の補間として反復線形化を正当化し,特徴を学習しない有限類型と,それを行う標準勾配降下訓練を行う。
繰り返し線形化トレーニングがうまく機能する予備的な結果を示し,同等のパフォーマンスを達成するのに,機能学習がどの程度必要かに注目した。
また,ニューラルネットワークのトレーニング行動に関する新たな知見を提供する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Rapid Feature Evolution Accelerates Learning in Neural Networks [2.538209532048867]
我々は,勾配降下時のNTKと目標関数とのカーネルアライメント現象を解析した。
より深いネットワークでは、機能進化がより速く、より劇的であることを示す。
また、複数の出力ノードを持つネットワークは、各出力チャネルに対して別個の専用カーネルを開発することも見出した。
論文 参考訳(メタデータ) (2021-05-29T13:50:03Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。