論文の概要: Random initialisations performing above chance and how to find them
- arxiv url: http://arxiv.org/abs/2209.07509v1
- Date: Thu, 15 Sep 2022 17:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:15:29.306078
- Title: Random initialisations performing above chance and how to find them
- Title(参考訳): 偶然以上のランダム初期化とそれを見つける方法
- Authors: Frederik Benzing, Simon Schug, Robert Meier, Johannes von Oswald,
Yassir Akram, Nicolas Zucchet, Laurence Aitchison, Angelika Steger
- Abstract要約: Entezariらは最近、異なる初期化にもかかわらず、SGDが発見した解は、ニューラルネットワークの置換不変性を考慮して同じ損失谷にあると推測した。
ここでは、そのような置換を見つけるために、単純だが強力なアルゴリズムを用いて、完全に接続されたネットワークにおいて仮説が真であるという直接的な実証的な証拠を得ることができる。
2つのネットワークは、初期化時に既に同じ損失谷に住んでおり、そのランダム性を平均化していますが、適切に置換された初期化は、かなり高い確率で実行されます。
- 参考スコア(独自算出の注目度): 22.812660025650253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks trained with stochastic gradient descent (SGD) starting from
different random initialisations typically find functionally very similar
solutions, raising the question of whether there are meaningful differences
between different SGD solutions. Entezari et al. recently conjectured that
despite different initialisations, the solutions found by SGD lie in the same
loss valley after taking into account the permutation invariance of neural
networks. Concretely, they hypothesise that any two solutions found by SGD can
be permuted such that the linear interpolation between their parameters forms a
path without significant increases in loss. Here, we use a simple but powerful
algorithm to find such permutations that allows us to obtain direct empirical
evidence that the hypothesis is true in fully connected networks. Strikingly,
we find that two networks already live in the same loss valley at the time of
initialisation and averaging their random, but suitably permuted initialisation
performs significantly above chance. In contrast, for convolutional
architectures, our evidence suggests that the hypothesis does not hold.
Especially in a large learning rate regime, SGD seems to discover diverse
modes.
- Abstract(参考訳): 確率勾配降下(SGD)で訓練されたニューラルネットワークは、異なるランダム初期化から始まり、機能的に非常によく似た解を見つけ、異なるSGD解の間に有意な違いがあるかどうかという問題を提起する。
Entezariらは最近、異なる初期化にもかかわらず、SGDが発見した解はニューラルネットワークの置換不変性を考慮して同じ損失谷にあると推測した。
具体的には、SGDによって発見された任意の2つの解は、それらのパラメータ間の線形補間が損失を著しく増加させることなく経路を形成するように置換できると仮定する。
ここでは、単純だが強力なアルゴリズムを用いて、この仮説が完全連結ネットワークにおいて真であることを示す直接的な実証的証拠を得ることができるような置換を見つける。
驚くべきことに、2つのネットワークは、初期化と平均化の時点ですでに同じ損失谷に住んでいますが、適度に置換された初期化は、チャンスをはるかに上回っています。
対照的に、畳み込みアーキテクチャでは、我々の証拠は仮説が成り立たないことを示唆している。
特に大きな学習率の体制では、SGDは多様なモードを発見できる。
関連論文リスト
- On permutation symmetries in Bayesian neural network posteriors: a
variational perspective [8.310462710943971]
勾配降下の局所解には本質的に損失障壁がないことを示す。
これにより、ベイズニューラルネットワークにおける近似推論に関する疑問が提起される。
線形接続された解を探索するマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-16T08:26:50Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Learning through atypical ''phase transitions'' in overparameterized
neural networks [0.43496401697112685]
現在のディープニューラルネットワークは可観測性が高く(最大数十億の接続重み)、非線形である。
しかし、過剰な降下アルゴリズムによってほぼ完全にデータに適合し、予期せぬ精度の予測を達成できる。
これらは一般化なしの恐ろしい挑戦である。
論文 参考訳(メタデータ) (2021-10-01T23:28:07Z) - Multivariate Deep Evidential Regression [77.34726150561087]
不確実性を認識するニューラルネットワークによる新しいアプローチは、従来の決定論的手法よりも有望である。
本稿では,レグレッションベースニューラルネットワークからアレータ性およびてんかん性不確かさを抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T12:20:18Z) - Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the
Hessian [48.61341260604871]
Gradient Descent(SGD)は、ディープニューラルネットワーク(DNN)の成功の鍵となる要素である
本稿では、ヘッセンの固有ベクトルを従えば「尾根」と呼ばれる別のアプローチを示す。
理論的および実験的に、我々の手法であるリッジライダー(RR)が様々な課題に対して有望な方向を提供することを示す。
論文 参考訳(メタデータ) (2020-11-12T17:15:09Z) - Convergence of Online Adaptive and Recurrent Optimization Algorithms [0.0]
我々は、機械学習で使用されるいくつかの顕著な降下アルゴリズムの局所収束を証明した。
我々は確率的視点ではなく「エルゴディック」を採用し、確率分布の代わりに経験的な時間平均で作業する。
論文 参考訳(メタデータ) (2020-05-12T09:48:52Z) - Online stochastic gradient descent on non-convex losses from
high-dimensional inference [2.2344764434954256]
勾配降下(SGD)は高次元タスクにおける最適化問題に対する一般的なアルゴリズムである。
本稿では,データから非自明な相関関係を推定する。
本稿では、位相探索や一般化モデルの推定といった一連のタスクに適用することで、我々のアプローチを説明する。
論文 参考訳(メタデータ) (2020-03-23T17:34:06Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。