論文の概要: Geometric Regularization from Overparameterization explains Double
Descent and other findings
- arxiv url: http://arxiv.org/abs/2202.09276v1
- Date: Fri, 18 Feb 2022 15:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 16:20:40.795242
- Title: Geometric Regularization from Overparameterization explains Double
Descent and other findings
- Title(参考訳): 過パラメータ化による幾何学的正則化
- Authors: Nicholas J. Teague
- Abstract要約: 本稿では,幾何正則化を導入し,いくつかの未説明現象に対する可能性を探る。
二重降下は、トレーニングパスが十分な損失に達すると、正規化フェーズが変更されるためであろう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The volume of the distribution of possible weight configurations associated
with a loss value may be the source of implicit regularization from
overparameterization due to the phenomenon of contracting volume with
increasing dimensions for geometric figures demonstrated by hyperspheres. This
paper introduces geometric regularization and explores potential applicability
to several unexplained phenomenon including double descent, the differences
between wide and deep networks, the benefits of He initialization and retained
proximity in training, gradient confusion, fitness landscape properties, double
descent in other learning paradigms, and other findings for overparameterized
learning. Experiments are conducted by aggregating histograms of loss values
corresponding to randomly sampled initializations in small setups, which find
directional correlations in zero or central mode dominance from deviations in
width, depth, and initialization distributions. Double descent is likely due to
a regularization phase change when a training path reaches low enough loss that
the loss manifold volume contraction from a reduced range of potential weight
sets is amplified by an overparameterized geometry.
- Abstract(参考訳): 損失値に関連する可能な重量構成の分布の体積は、超球によって示される幾何学的図形の次元が増大する収縮体積現象による過剰パラメータ化から暗黙の正規化の元となるかもしれない。
本稿では,幾何正規化について述べるとともに,二重降下,広大ネットワークと深層ネットワークの差異,he初期化と近接の利点,グラデーションの混乱,適合性ランドスケープ特性,その他の学習パラダイムにおける二重降下,および過パラメータ学習に関する他の知見など,説明できない現象の潜在的適用可能性について検討する。
実験は, ランダムサンプリング初期化に対応する損失値のヒストグラムを小さな設定で集約し, 幅, 深さ, 初期化分布の偏差からゼロあるいは中央モード支配の方向相関を求める。
2重降下は、トレーニングパスが十分低い損失に達すると正規化位相変化により起こり、ポテンシャル重みセットの縮小範囲からの損失多様体体積収縮が過パラメータ化幾何によって増幅される。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Symmetries, flat minima, and the conserved quantities of gradient flow [20.12938444246729]
パラメータ空間における連続対称性を見つけるための枠組みについて述べる。
この枠組みを非線形ニューラルネットワークに一般化するために,非線形・データ依存対称性の新たな集合を導入する。
論文 参考訳(メタデータ) (2022-10-31T10:55:30Z) - The activity-weight duality in feed forward neural networks: The
geometric determinants of generalization [7.372592187197655]
ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の間には、正確な双対性がある。
これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くのに使うことができる。
論文 参考訳(メタデータ) (2022-03-21T05:00:54Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - Semiparametric Nonlinear Bipartite Graph Representation Learning with
Provable Guarantees [106.91654068632882]
半パラメトリック指数族分布におけるパラメータの統計的推定問題として、両部グラフを考察し、その表現学習問題を定式化する。
提案手法は, 地中真理付近で強い凸性を示すため, 勾配降下法が線形収束率を達成できることを示す。
我々の推定器は指数族内の任意のモデル誤特定に対して頑健であり、広範な実験で検証されている。
論文 参考訳(メタデータ) (2020-03-02T16:40:36Z) - On the Principle of Least Symmetry Breaking in Shallow ReLU Models [13.760721677322072]
対象の重みに対する対称性の中期的損失は、より広範囲な設定に適用可能であることを示す。
これを受けて、我々はこの仮説を非等方性非積分布、滑らかな活性化関数、いくつかの層を持つネットワークの異なるクラスに相関させる一連の実験を行った。
論文 参考訳(メタデータ) (2019-12-26T22:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。