論文の概要: On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks
- arxiv url: http://arxiv.org/abs/2105.06351v1
- Date: Thu, 13 May 2021 15:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:51:42.470619
- Title: On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks
- Title(参考訳): 過パラメータ線形ネットワークの収束と暗黙バイアスにおける初期化の明示的役割について
- Authors: Hancheng Min, Salma Tarmoun, Rene Vidal, Enrique Mallada
- Abstract要約: 勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks trained via gradient descent with random initialization and
without any regularization enjoy good generalization performance in practice
despite being highly overparametrized. A promising direction to explain this
phenomenon is to study how initialization and overparametrization affect
convergence and implicit bias of training algorithms. In this paper, we present
a novel analysis of single-hidden-layer linear networks trained under gradient
flow, which connects initialization, optimization, and overparametrization.
Firstly, we show that the squared loss converges exponentially to its optimum
at a rate that depends on the level of imbalance of the initialization.
Secondly, we show that proper initialization constrains the dynamics of the
network parameters to lie within an invariant set. In turn, minimizing the loss
over this set leads to the min-norm solution. Finally, we show that large
hidden layer width, together with (properly scaled) random initialization,
ensures proximity to such an invariant set during training, allowing us to
derive a novel non-asymptotic upper-bound on the distance between the trained
network and the min-norm solution.
- Abstract(参考訳): ランダム初期化と正規化のない勾配降下によってトレーニングされたニューラルネットワークは、高過パラメータ化にもかかわらず、実際には優れた一般化性能を享受する。
この現象を説明する有望な方向は、トレーニングアルゴリズムの収束と暗黙のバイアスに初期化と過剰パラメータ化がどのように影響するかを研究することである。
本稿では,初期化,最適化,過パラメトリゼーションを結合する勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
まず、二乗損失は初期化の不均衡のレベルに依存する速度で指数関数的にその最適値に収束することを示す。
第二に、適切な初期化は、不変集合内にあるネットワークパラメータのダイナミクスを制約することを示す。
逆に、この集合上の損失を最小化することは、ミンノルム解につながる。
最後に,大規模層幅と(適切にスケールした)ランダム初期化により,トレーニング中にそのような不変集合に近づき,トレーニングされたネットワークとmin-norm解との距離で新たな非漸近上界を導出できることを示す。
関連論文リスト
- Early alignment in two-layer networks training is a two-edged sword [24.43739371803548]
1次最適化手法によるニューラルネットワークのトレーニングは、ディープラーニングの実証的な成功の核心にある。
小さな初期化は一般的に、単純な解に対して勾配降下が暗黙的に偏っている特徴学習体制に関連付けられている。
この研究は、元来Maennelらによって導入された初期のアライメントフェーズの一般的かつ定量的な記述を提供する。
論文 参考訳(メタデータ) (2024-01-19T16:23:53Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks [21.69222364939501]
教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
論文 参考訳(メタデータ) (2023-03-31T05:32:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z) - Provable Benefit of Orthogonal Initialization in Optimizing Deep Linear
Networks [39.856439772974454]
グローバル最小値への効率的な収束に必要な幅は, 深さに依存しないことを示す。
この結果から, 非線形ネットワークの初期化による最近の経験的成功について, 動的アイソメトリの原理による説明が得られた。
論文 参考訳(メタデータ) (2020-01-16T18:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。