論文の概要: Slope and generalization properties of neural networks
- arxiv url: http://arxiv.org/abs/2107.01473v1
- Date: Sat, 3 Jul 2021 17:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 06:54:38.479913
- Title: Slope and generalization properties of neural networks
- Title(参考訳): ニューラルネットワークの傾斜と一般化特性
- Authors: Anton Johansson, Niklas Engsner, Claes Stranneg{\aa}rd, Petter Mostad
- Abstract要約: 十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are very successful tools in for example advanced
classification. From a statistical point of view, fitting a neural network may
be seen as a kind of regression, where we seek a function from the input space
to a space of classification probabilities that follows the "general" shape of
the data, but avoids overfitting by avoiding memorization of individual data
points. In statistics, this can be done by controlling the geometric complexity
of the regression function. We propose to do something similar when fitting
neural networks by controlling the slope of the network.
After defining the slope and discussing some of its theoretical properties,
we go on to show empirically in examples, using ReLU networks, that the
distribution of the slope of a well-trained neural network classifier is
generally independent of the width of the layers in a fully connected network,
and that the mean of the distribution only has a weak dependence on the model
architecture in general. The slope is of similar size throughout the relevant
volume, and varies smoothly. It also behaves as predicted in rescaling
examples. We discuss possible applications of the slope concept, such as using
it as a part of the loss function or stopping criterion during network
training, or ranking data sets in terms of their complexity.
- Abstract(参考訳): ニューラルネットワークは、例えば高度な分類において非常に成功したツールである。
統計的観点からは、ニューラルネットワークの適合は、入力空間からデータの「一般的な」形に従う分類確率の空間への関数を求める回帰の一種と見なすことができるが、個々のデータポイントの記憶を避けることによって過剰フィッティングを避けることができる。
統計学において、これは回帰関数の幾何学的複雑さを制御することで実現できる。
ネットワークの傾斜を制御してニューラルネットワークを適合させる手法を提案する。
勾配を定義して理論的な性質について議論した後、reluネットワークを用いて、よく訓練されたニューラルネットワーク分類器の勾配分布は、一般的に、完全接続されたネットワークの層幅とは独立であり、分布の平均は、モデルアーキテクチャ全般に弱い依存しか持たないことを実証的に示した。
傾斜は、関連する体積を通して同じ大きさで、滑らかに変化する。
また、再スケーリングの例で予測したように振る舞う。
本稿では,損失関数の一部として使用したり,ネットワークトレーニング中に基準値を停止したり,複雑性の観点からデータセットをランク付けしたりといった,スロープ概念の応用の可能性について議論する。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural
Isometry and Exact Recovery [33.74925020397343]
ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:47:15Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Recurrent neural networks that generalize from examples and optimize by
dreaming [0.0]
オンライン学習のためのHebbの処方則に従って,ニューロン間のペア結合が構築される一般化されたホップフィールドネットワークを導入する。
ネットワークエクスペリエンスは、パターン毎にノイズの多いサンプルのサンプルで構成されたデータセットに過ぎません。
注目すべきは、睡眠メカニズムが常に正しく一般化するために必要なデータセットサイズを著しく削減することです。
論文 参考訳(メタデータ) (2022-04-17T08:40:54Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Dive into Layers: Neural Network Capacity Bounding using Algebraic
Geometry [55.57953219617467]
ニューラルネットワークの学習性はそのサイズと直接関連していることを示す。
入力データとニューラルネットワークのトポロジ的幾何学的複雑さを測定するためにベッチ数を用いる。
実世界のデータセットMNISTで実験を行い、分析結果と結論を検証した。
論文 参考訳(メタデータ) (2021-09-03T11:45:51Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena [17.205106391379026]
ニューラルネットワークモデルでは、過度パラメトリゼーション(overparametrization)は、これらのモデルが見えないデータに対してうまく一般化しているように見える現象を指す。
この現象の従来の説明は、データのトレーニングに使用されるアルゴリズムの自己正規化特性に基づいている。
教師ネットワークが生成したデータを補間する学生ネットワークは,少なくともデータ次元によって制御される明示的な量である場合,よく一般化することを示す。
論文 参考訳(メタデータ) (2020-03-23T20:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。