論文の概要: On the Periodic Behavior of Neural Network Training with Batch
Normalization and Weight Decay
- arxiv url: http://arxiv.org/abs/2106.15739v1
- Date: Tue, 29 Jun 2021 21:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 12:36:20.011283
- Title: On the Periodic Behavior of Neural Network Training with Batch
Normalization and Weight Decay
- Title(参考訳): バッチ正規化と重み崩壊を伴うニューラルネットワークトレーニングの周期的挙動について
- Authors: Ekaterina Lobacheva, Maxim Kodryan, Nadezhda Chirkova, Andrey Malinin,
Dmitry Vetrov
- Abstract要約: 近年の研究では、減量によるバッチ正規化がトレーニングの後期に不安定を引き起こす可能性があることが示されている。
安定平衡に収束する代わりに、トレーニングダイナミクスが一貫した周期的挙動に収束することを示す。
- 参考スコア(独自算出の注目度): 14.428215696969874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the conventional wisdom that using batch normalization with weight
decay may improve neural network training, some recent works show their joint
usage may cause instabilities at the late stages of training. Other works, in
contrast, show convergence to the equilibrium, i.e., the stabilization of
training metrics. In this paper, we study this contradiction and show that
instead of converging to a stable equilibrium, the training dynamics converge
to consistent periodic behavior. That is, the training process regularly
exhibits instabilities which, however, do not lead to complete training
failure, but cause a new period of training. We rigorously investigate the
mechanism underlying this discovered periodic behavior both from an empirical
and theoretical point of view and show that this periodic behavior is indeed
caused by the interaction between batch normalization and weight decay.
- Abstract(参考訳): 減量によるバッチ正規化はニューラルネットワークのトレーニングを改善する可能性があるという従来の認識にもかかわらず、最近の研究では、トレーニング後期に関節使用が不安定になる可能性がある。
対照的に他の研究は、均衡、すなわちトレーニングメトリクスの安定化への収束を示している。
本稿では,この矛盾を考察し,安定平衡に収束する代わりに,トレーニングダイナミクスが一貫した周期的挙動に収束することを示す。
つまり、トレーニングプロセスは、しかしながら、完全なトレーニング失敗につながるのではなく、新しいトレーニング期間を引き起こす不安定さを定期的に示します。
本研究では, この周期的挙動のメカニズムを経験的, 理論的両面から厳密に検討し, この周期的挙動がバッチ正規化と重崩壊の相互作用によって引き起こされることを示す。
関連論文リスト
- Engineering nonequilibrium steady states through Floquet Liouvillians [0.3333940060354926]
周期駆動下での散逸性超伝導量子ビットの過渡ダイナミクスを実験的に検討した。
我々の研究は、散逸性量子系における非ハーミティリティを制御するための新しいアプローチを提供する。
論文 参考訳(メタデータ) (2024-03-14T18:00:00Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Online Learning in Periodic Zero-Sum Games [27.510231246176033]
これらの力学系の複雑で非自律的な性質にもかかわらず、ポアンカーの再発は確実に一般化することを示す。
論文 参考訳(メタデータ) (2021-11-05T10:36:16Z) - Experimental and theoretical characterization of a non-equilibrium
steady state of a periodically driven qubit [0.0]
開量子系の周期的に駆動されるダイナミクスは、通常非平衡定常状態に達するため非常に興味深い。
我々は、実験的な観察を説明する包括的な理論を開発し、システムの非平衡定常状態の分析的特徴を提供する。
論文 参考訳(メタデータ) (2021-07-12T10:56:23Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Equilibrium and non-Equilibrium regimes in the learning of Restricted
Boltzmann Machines [0.9208007322096533]
Boltzmann Machines (RBMs) のトレーニングは、ログのような勾配を正確に計算することの難しさから、長い間困難であった。
この混合時間は、訓練されたモデルの力学と安定性において重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2021-05-28T14:52:11Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。