論文の概要: Shallow Univariate ReLu Networks as Splines: Initialization, Loss
Surface, Hessian, & Gradient Flow Dynamics
- arxiv url: http://arxiv.org/abs/2008.01772v1
- Date: Tue, 4 Aug 2020 19:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:39:52.515019
- Title: Shallow Univariate ReLu Networks as Splines: Initialization, Loss
Surface, Hessian, & Gradient Flow Dynamics
- Title(参考訳): スプラインとしての浅一変量ReLuネットワーク:初期化, ロス表面, ヘッセン, グラディエントフローダイナミクス
- Authors: Justin Sahs, Ryan Pyle, Aneel Damaraju, Josue Ortega Caro, Onur
Tavaslioglu, Andy Lu, Ankit Patel
- Abstract要約: 本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。
我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。
Splineベースの可視化を使用した学習ダイナミクスのビデオはhttp://shorturl.at/tFWZ2.comで公開されている。
- 参考スコア(独自算出の注目度): 1.5393457051344297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the learning dynamics and inductive bias of neural networks
(NNs) is hindered by the opacity of the relationship between NN parameters and
the function represented. We propose reparametrizing ReLU NNs as continuous
piecewise linear splines. Using this spline lens, we study learning dynamics in
shallow univariate ReLU NNs, finding unexpected insights and explanations for
several perplexing phenomena. We develop a surprisingly simple and transparent
view of the structure of the loss surface, including its critical and fixed
points, Hessian, and Hessian spectrum. We also show that standard weight
initializations yield very flat functions, and that this flatness, together
with overparametrization and the initial weight scale, is responsible for the
strength and type of implicit regularization, consistent with recent work
arXiv:1906.05827. Our implicit regularization results are complementary to
recent work arXiv:1906.07842, done independently, which showed that
initialization scale critically controls implicit regularization via a
kernel-based argument. Our spline-based approach reproduces their key implicit
regularization results but in a far more intuitive and transparent manner.
Going forward, our spline-based approach is likely to extend naturally to the
multivariate and deep settings, and will play a foundational role in efforts to
understand neural networks. Videos of learning dynamics using a spline-based
visualization are available at http://shorturl.at/tFWZ2.
- Abstract(参考訳): ニューラルネットワーク(NN)の学習力学と帰納バイアスを理解することは、NNパラメータと表現される関数の関係の不透明さによって妨げられる。
本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。
このスプラインレンズを用いて、浅い単変量ReLU NNの学習力学を研究し、予期せぬ洞察といくつかの難解な現象の説明を求める。
我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。
また、標準重み初期化は非常に平坦な関数となり、この平坦さは過度なパラメータ化や初期重みスケールとともに、最近のarXiv:1906.05827と一致する暗黙の正則化の強さとタイプに寄与することを示した。
我々の暗黙的正規化結果は、カーネルベースの引数を介して暗黙的正規化を臨界的に制御する初期化スケールを独立に行う最近の研究であるarxiv: 1906.07842と相補的である。
我々のスプラインベースのアプローチは、重要な暗黙の正規化結果を再現するが、はるかに直感的で透明な方法で再現する。
今後、スプラインベースのアプローチは、多変量および深い設定に自然に拡張され、ニューラルネットワークを理解する上で基礎的な役割を果たすでしょう。
splineベースの可視化を使った学習ダイナミクスのビデオはhttp://shorturl.at/tfwz2.com/で見ることができる。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization [21.64166573203593]
暗黙の正則化は、ニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明するようになった。
論文 参考訳(メタデータ) (2022-12-29T02:11:19Z) - Tractable Dendritic RNNs for Reconstructing Nonlinear Dynamical Systems [7.045072177165241]
線形スプラインベース展開により、片方向線形リカレントニューラルネットワーク(RNN)を増強する。
このアプローチは単純な PLRNN の理論的に魅力的な性質を全て保持するが、相対的に低次元の任意の非線形力学系を近似する能力は向上する。
論文 参考訳(メタデータ) (2022-07-06T09:43:03Z) - Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks [45.886537625951256]
単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
論文 参考訳(メタデータ) (2022-02-11T08:55:58Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Deep Neural Networks with Trainable Activations and Controlled Lipschitz
Constant [26.22495169129119]
本稿では,深層ニューラルネットワークの活性化関数を学習するための変分フレームワークを提案する。
我々の目的は、リプシッツ定数の上界を制御しながら、ネットワークの容量を増加させることである。
提案手法を標準ReLUネットワークとその変種であるPRELUとLeakyReLUと比較する。
論文 参考訳(メタデータ) (2020-01-17T12:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。