論文の概要: What training reveals about neural network complexity
- arxiv url: http://arxiv.org/abs/2106.04186v1
- Date: Tue, 8 Jun 2021 08:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:12:23.841412
- Title: What training reveals about neural network complexity
- Title(参考訳): ニューラルネットワークの複雑さに関するトレーニング
- Authors: Andreas Loukas, Marinos Poiitis, Stefanie Jegelka
- Abstract要約: この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
- 参考スコア(独自算出の注目度): 80.87515604428346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the hypothesis that the complexity of the function a deep
neural network (NN) is learning can be deduced by how fast its weights change
during training. Our analysis provides evidence for this supposition by
relating the network's distribution of Lipschitz constants (i.e., the norm of
the gradient at different regions of the input space) during different training
intervals with the behavior of the stochastic training procedure. We first
observe that the average Lipschitz constant close to the training data affects
various aspects of the parameter trajectory, with more complex networks having
a longer trajectory, bigger variance, and often veering further from their
initialization. We then show that NNs whose biases are trained more steadily
have bounded complexity even in regions of the input space that are far from
any training point. Finally, we find that steady training with Dropout implies
a training- and data-dependent generalization bound that grows
poly-logarithmically with the number of parameters. Overall, our results
support the hypothesis that good training behavior can be a useful bias towards
good generalization.
- Abstract(参考訳): この研究は、深層ニューラルネットワーク(nn)が学習している機能の複雑さが、トレーニング中の重みの変化の速さによって推測できるという仮説を探求する。
我々の解析は、確率的訓練手順の振る舞いと異なる訓練間隔におけるリプシッツ定数(入力空間の異なる領域における勾配のノルム)のネットワーク分布を関連付けることによって、この仮定の証拠を提供する。
まず、トレーニングデータに近い平均リプシッツ定数がパラメータの軌跡の様々な側面に影響を与えることを観測し、より複雑なネットワークはより長い軌跡を持ち、大きな分散を持ち、しばしば初期化から逸脱する。
そして、バイアスがより着実に訓練されたnnは、任意のトレーニングポイントから遠い入力空間の領域においても、境界付き複雑度を持つことを示した。
最後に、Dropoutによる定常的なトレーニングは、パラメータの数に応じて多対数的に成長するトレーニングおよびデータ依存の一般化バウンダリを意味する。
全体としては、良い訓練行動は良い一般化への有用なバイアスとなるという仮説を支持する。
関連論文リスト
- Bifurcations and loss jumps in RNN training [7.937801286897863]
本稿では,ReLUベースのRNNにおけるすべての固定点とkサイクルとその存在と安定性領域を検出するアルゴリズムを提案する。
我々のアルゴリズムは正確な結果を提供し、驚くほど優れたスケーリング動作で固定点とサイクルを高次に返却する。
論文 参考訳(メタデータ) (2023-10-26T16:49:44Z) - Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - On the (Non-)Robustness of Two-Layer Neural Networks in Different
Learning Regimes [27.156666384752548]
ニューラルネットワークは敵の例に非常に敏感である。
異なるシナリオにおける堅牢性と一般化について研究する。
線形化された遅延学習体制がいかに堅牢性を悪化させるかを示す。
論文 参考訳(メタデータ) (2022-03-22T16:40:52Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。