論文の概要: Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks
- arxiv url: http://arxiv.org/abs/2206.02139v3
- Date: Mon, 29 May 2023 05:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:07:33.759864
- Title: Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks
- Title(参考訳): 訓練軽度パラメータ化ニューラルネットワークの初期収束と大域収束
- Authors: Mingze Wang, Chao Ma
- Abstract要約: トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
- 参考スコア(独自算出の注目度): 3.148524502470734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The convergence of GD and SGD when training mildly parameterized neural
networks starting from random initialization is studied. For a broad range of
models and loss functions, including the most commonly used square loss and
cross entropy loss, we prove an ``early stage convergence'' result. We show
that the loss is decreased by a significant amount in the early stage of the
training, and this decrease is fast. Furthurmore, for exponential type loss
functions, and under some assumptions on the training data, we show global
convergence of GD. Instead of relying on extreme over-parameterization, our
study is based on a microscopic analysis of the activation patterns for the
neurons, which helps us derive more powerful lower bounds for the gradient. The
results on activation patterns, which we call ``neuron partition'', help build
intuitions for understanding the behavior of neural networks' training
dynamics, and may be of independent interest.
- Abstract(参考訳): ランダム初期化から始まる軽度パラメータ化ニューラルネットワークのトレーニングにおけるGDとSGDの収束性について検討した。
最も一般的に使われる正方形損失とクロスエントロピー損失を含む、幅広いモデルと損失関数に対して、 ``early stage convergence'' の結果が証明される。
トレーニングの初期段階において、損失はかなりの量減少し、この減少は高速であることを示す。
furthurmore, 指数型損失関数について, トレーニングデータに対するいくつかの仮定の下で, gd のグローバル収束を示す。
極端に過度なパラメータ化に頼る代わりに、我々の研究はニューロンの活性化パターンの顕微鏡分析に基づいており、勾配のより強力な下界の導出に役立つ。
と呼ばれる活性化パターンの結果は、ニューラルネットワークのトレーニングダイナミクスの振る舞いを理解するための直感を構築するのに役立ち、独立した関心を持つかもしれない。
関連論文リスト
- Fractional-order spike-timing-dependent gradient descent for multi-layer spiking neural networks [18.142378139047977]
本稿では,数次スパイクタイピング依存勾配勾配(FOSTDGD)学習モデルを提案する。
TheNISTとDVS128 Gestureデータセットでテストし、その精度を異なるネットワーク構造と分数順序で分析する。
論文 参考訳(メタデータ) (2024-10-20T05:31:34Z) - Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance [0.0]
一般に、ニューラルネットワークは勾配型最適化法によって訓練される。
トレーニング開始時に損失関数は急速に低下するが,比較的少数のステップの後に著しく低下する。
本研究の目的は,高原現象の根本原因の同定と定量化である。
論文 参考訳(メタデータ) (2020-07-14T17:33:26Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。