論文の概要: On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks
- arxiv url: http://arxiv.org/abs/2303.17805v2
- Date: Wed, 9 Aug 2023 07:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:50:53.955940
- Title: On the Effect of Initialization: The Scaling Path of 2-Layer Neural
Networks
- Title(参考訳): 初期化の効果について:2層ニューラルネットワークのスケーリングパス
- Authors: Sebastian Neumayer and L\'ena\"ic Chizat and Michael Unser
- Abstract要約: 教師付き学習では、正規化経路はゼロからの勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
この経路がカーネルとリッチレジームの間に連続的に補間されていることを示す。
- 参考スコア(独自算出の注目度): 21.69222364939501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In supervised learning, the regularization path is sometimes used as a
convenient theoretical proxy for the optimization path of gradient descent
initialized from zero. In this paper, we study a modification of the
regularization path for infinite-width 2-layer ReLU neural networks with
nonzero initial distribution of the weights at different scales. By exploiting
a link with unbalanced optimal-transport theory, we show that, despite the
non-convexity of the 2-layer network training, this problem admits an
infinite-dimensional convex counterpart. We formulate the corresponding
functional-optimization problem and investigate its main properties. In
particular, we show that, as the scale of the initialization ranges between $0$
and $+\infty$, the associated path interpolates continuously between the
so-called kernel and rich regimes. Numerical experiments confirm that, in our
setting, the scaling path and the final states of the optimization path behave
similarly, even beyond these extreme points.
- Abstract(参考訳): 教師付き学習において、正規化経路はゼロから初期化された勾配降下の最適化経路の便利な理論的プロキシとして用いられることがある。
本稿では,無限幅2層reluニューラルネットワークにおける重みの非ゼロ初期分布による正則化経路の修正について検討する。
非平衡最適輸送理論とのリンクを利用することで、2層ネットワークトレーニングの非凸性にもかかわらず、この問題は無限次元凸に対応することを証明している。
対応する機能最適化問題を定式化し,その主特性について検討する。
特に、初期化のスケールが$0$から$+\infty$の間であるので、関連する経路はいわゆるカーネルとリッチレジームの間で連続的に補間される。
数値実験により、我々の設定では、最適化パスのスケーリングパスと最終状態も同様に振る舞うことが確認される。
関連論文リスト
- Local Loss Optimization in the Infinite Width: Stable Parameterization of Predictive Coding Networks and Target Propagation [8.35644084613785]
局所目標の2つの代表的設計に対して、無限幅極限における最大更新パラメータ化(mu$P)を導入する。
深層線形ネットワークを解析した結果,PCの勾配は1次勾配とガウス・ニュートン様勾配の間に介在していることが判明した。
我々は、特定の標準設定において、無限幅制限のPCは、一階勾配とよりよく似た振る舞いをすることを示した。
論文 参考訳(メタデータ) (2024-11-04T11:38:27Z) - Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文 参考訳(メタデータ) (2023-12-17T10:13:42Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model
Classes and Cone Decompositions [41.337814204665364]
ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化アルゴリズムを開発した。
凸ゲート型ReLUモデルでは,ReLUトレーニング問題に対するデータ依存の近似バウンダリが得られることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:50:53Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。