論文の概要: Expected Gradients of Maxout Networks and Consequences to Parameter
Initialization
- arxiv url: http://arxiv.org/abs/2301.06956v1
- Date: Tue, 17 Jan 2023 15:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:53:50.699492
- Title: Expected Gradients of Maxout Networks and Consequences to Parameter
Initialization
- Title(参考訳): 最大化ネットワークの予測勾配とパラメータ初期化への適用
- Authors: Hanna Tseran, Guido Mont\'ufar
- Abstract要約: 本稿では,最大化ネットワークの入力とパラメータに対する勾配について検討し,アーキテクチャやパラメータ分布に依存するモーメントの境界値を求める。
深層完全接続ネットワークと畳み込みネットワークの実験により、この戦略が深層最大化ネットワークのSGDとAdamトレーニングを改善することが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the gradients of a maxout network with respect to inputs and
parameters and obtain bounds for the moments depending on the architecture and
the parameter distribution. We observe that the distribution of the
input-output Jacobian depends on the input, which complicates a stable
parameter initialization. Based on the moments of the gradients, we formulate
parameter initialization strategies that avoid vanishing and exploding
gradients in wide networks. Experiments with deep fully-connected and
convolutional networks show that this strategy improves SGD and Adam training
of deep maxout networks. In addition, we obtain refined bounds on the expected
number of linear regions, results on the expected curve length distortion, and
results on the NTK.
- Abstract(参考訳): 本稿では,最大化ネットワークの入力とパラメータに対する勾配について検討し,アーキテクチャやパラメータ分布に依存するモーメントの境界値を求める。
我々は、入力出力ヤコビアンの分布が、安定なパラメータの初期化を複雑にする入力に依存することを観察する。
勾配のモーメントに基づいて,パラメータ初期化戦略を定式化し,広域ネットワークにおける勾配の消失や爆発を回避する。
深層完全接続ネットワークと畳み込みネットワークの実験により、この戦略が深層最大化ネットワークのSGDとAdamトレーニングを改善することが示されている。
さらに, 線形領域の期待値, 曲線長歪みの予測値, NTKの予測値について, 洗練された境界を求める。
関連論文リスト
- Local Loss Optimization in the Infinite Width: Stable Parameterization of Predictive Coding Networks and Target Propagation [8.35644084613785]
局所目標の2つの代表的設計に対して、無限幅極限における最大更新パラメータ化(mu$P)を導入する。
深層線形ネットワークを解析した結果,PCの勾配は1次勾配とガウス・ニュートン様勾配の間に介在していることが判明した。
我々は、特定の標準設定において、無限幅制限のPCは、一階勾配とよりよく似た振る舞いをすることを示した。
論文 参考訳(メタデータ) (2024-11-04T11:38:27Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Adaptive Multilevel Neural Networks for Parametric PDEs with Error Estimation [0.0]
ニューラルネットワークアーキテクチャは高次元パラメータ依存偏微分方程式(pPDE)を解くために提示される
モデルデータのパラメータを対応する有限要素解にマッピングするために構築される。
適応有限要素法(AFEM)で生成される粗いグリッド解と一連の補正を出力する。
論文 参考訳(メタデータ) (2024-03-19T11:34:40Z) - On the Impact of Overparameterization on the Training of a Shallow
Neural Network in High Dimensions [0.0]
本研究では,2次活性化関数と2次コストを持つ浅部ニューラルネットワークのトレーニングダイナミクスについて検討する。
同じニューラルアーキテクチャに関する以前の研究と並行して、集団リスクの勾配流に従って最適化を行う。
論文 参考訳(メタデータ) (2023-11-07T08:20:31Z) - Optimization dependent generalization bound for ReLU networks based on
sensitivity in the tangent bundle [0.0]
本稿では,フィードフォワードReLUネットワークの一般化誤差に基づいたPAC型を提案する。
得られた境界はネットワークの深さに明示的に依存しない。
論文 参考訳(メタデータ) (2023-10-26T13:14:13Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。