論文の概要: Effect of the initial configuration of weights on the training and
function of artificial neural networks
- arxiv url: http://arxiv.org/abs/2012.02550v1
- Date: Fri, 4 Dec 2020 12:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:36:39.645137
- Title: Effect of the initial configuration of weights on the training and
function of artificial neural networks
- Title(参考訳): 重みの初期設定が人工ニューラルネットワークのトレーニングと機能に及ぼす影響
- Authors: R. J. Jesus, M. L. Antunes, R. A. da Costa, S. N. Dorogovtsev, J. F.
F. Mendes, R. L. Aguiar
- Abstract要約: グラディエントDescentを用いて訓練した2層ReLUネットワークの重みの偏りを定量的に評価した。
我々は,SGDによるトレーニングを成功させることで,初期重量設定の近辺にネットワークを置き去りにすることを発見した。
以上の結果から,SGDが局所最小値を効率的に検出できる能力は,重量のランダムな初期配置の近傍に限られていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The function and performance of neural networks is largely determined by the
evolution of their weights and biases in the process of training, starting from
the initial configuration of these parameters to one of the local minima of the
loss function. We perform the quantitative statistical characterization of the
deviation of the weights of two-hidden-layer ReLU networks of various sizes
trained via Stochastic Gradient Descent (SGD) from their initial random
configuration. We compare the evolution of the distribution function of this
deviation with the evolution of the loss during training. We observed that
successful training via SGD leaves the network in the close neighborhood of the
initial configuration of its weights. For each initial weight of a link we
measured the distribution function of the deviation from this value after
training and found how the moments of this distribution and its peak depend on
the initial weight. We explored the evolution of these deviations during
training and observed an abrupt increase within the overfitting region. This
jump occurs simultaneously with a similarly abrupt increase recorded in the
evolution of the loss function. Our results suggest that SGD's ability to
efficiently find local minima is restricted to the vicinity of the random
initial configuration of weights.
- Abstract(参考訳): ニューラルネットワークの機能と性能は、トレーニングの過程における重みとバイアスの進化によって決定される。
本研究では,SGD(Stochastic Gradient Descent)を用いて学習した2層ReLUネットワークの重みの偏りを,初期ランダムな構成から定量的に評価する。
この偏差の分布関数の進化とトレーニング中の損失の進化を比較した。
我々は,SGDによるトレーニングを成功させることで,初期重量設定の近辺にネットワークを置き去りにすることを発見した。
リンクの初期重みごとに、トレーニング後のこの値から偏差の分布関数を測定し、この分布とそのピークのモーメントが初期重みに依存するかを見出した。
トレーニング中,これらの偏差の進化を探究し,オーバーフィット領域内での急激な増加を観察した。
このジャンプは、損失関数の進化で記録された同様の急上昇と同時に起こる。
以上の結果から,SGDが局所最小値を効率的に検出できる能力は,重量のランダムな初期配置の近傍に限られていることが示唆された。
関連論文リスト
- Enhancing Convergence Speed with Feature-Enforcing Physics-Informed Neural Networks: Utilizing Boundary Conditions as Prior Knowledge for Faster Convergence [0.0]
本研究では,Vanilla Physics-Informed-Neural-Networks(PINN)の高速化学習手法を提案する。
ニューラルネットワークの初期重み付け状態、ドメイン間境界点比、損失重み付け係数という、損失関数の不均衡な3つの要因に対処する。
ニューラルネットワークの構造に第1のトレーニングフェーズで生成された重みを組み込むことで、不均衡因子の影響を中和することがわかった。
論文 参考訳(メタデータ) (2023-08-17T09:10:07Z) - Scaling and Resizing Symmetry in Feedforward Networks [0.0]
臨界点における物理系によって示されるスケーリング特性は、臨界点におけるランダムな重みを持つトレーニングされていないフィードフォワードネットワークにも存在していることを示す。
我々は、臨界におけるスケーリング対称性から直接受け継がれる追加のデータ縮小対称性を提案する。
論文 参考訳(メタデータ) (2023-06-26T18:55:54Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。