論文の概要: Phase Diagram of Dropout for Two-Layer Neural Networks in the Mean-Field Regime
- arxiv url: http://arxiv.org/abs/2510.07554v1
- Date: Wed, 08 Oct 2025 21:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.738398
- Title: Phase Diagram of Dropout for Two-Layer Neural Networks in the Mean-Field Regime
- Title(参考訳): 平均場レジームにおける2層ニューラルネットワークの位相図
- Authors: Lénaïc Chizat, Pierre Marion, Yerkin Yesbay,
- Abstract要約: Dropoutは、勾配に基づくトレーニングの各ステップでランダムに非活性化されたユニットで構成されるニューラルネットワークのトレーニングテクニックである。
平均場スケールの2層ニューラルネットワーク上での降下による勾配降下幅の広さについて検討した。
- 参考スコア(独自算出の注目度): 20.21806452403366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dropout is a standard training technique for neural networks that consists of randomly deactivating units at each step of their gradient-based training. It is known to improve performance in many settings, including in the large-scale training of language or vision models. As a first step towards understanding the role of dropout in large neural networks, we study the large-width asymptotics of gradient descent with dropout on two-layer neural networks with the mean-field initialization scale. We obtain a rich asymptotic phase diagram that exhibits five distinct nondegenerate phases depending on the relative magnitudes of the dropout rate, the learning rate, and the width. Notably, we find that the well-studied "penalty" effect of dropout only persists in the limit with impractically small learning rates of order $O(1/\text{width})$. For larger learning rates, this effect disappears and in the limit, dropout is equivalent to a "random geometry" technique, where the gradients are thinned randomly after the forward and backward pass have been computed. In this asymptotic regime, the limit is described by a mean-field jump process where the neurons' update times follow independent Poisson or Bernoulli clocks (depending on whether the learning rate vanishes or not). For some of the phases, we obtain a description of the limit dynamics both in path-space and in distribution-space. The convergence proofs involve a mix of tools from mean-field particle systems and stochastic processes. Together, our results lay the groundwork for a renewed theoretical understanding of dropout in large-scale neural networks.
- Abstract(参考訳): Dropoutはニューラルネットワークの標準的なトレーニング手法であり、勾配に基づくトレーニングの各ステップでランダムに非活性化するユニットで構成されている。
言語や視覚モデルの大規模トレーニングなど、多くの設定でパフォーマンスを改善することが知られている。
大規模ニューラルネットワークにおけるドロップアウトの役割を理解するための第一歩として、平均場初期化スケールを持つ2層ニューラルネットワーク上でのドロップアウトを伴う勾配降下の大幅漸近について検討する。
本研究では, 降下速度, 学習速度, 幅の相対等級に応じて, 5つの異なる非退化位相を示すリッチな漸近位相図を得る。
特に、よく研究されているドロップアウトの「ペナルティ」効果は、O(1/\text{width})$の急激な学習率で限界に留まっている。
より大きな学習率において、この効果は消失し、極限において、降下は「ランダム幾何学」技法と等価であり、勾配は前方と後方の通過が計算された後にランダムに薄められる。
この漸近的な状態において、ニューロンの更新時間が独立したポアソン時計またはベルヌーイ時計(学習速度が消滅するか否かによって)に従う平均フィールドジャンプ過程によって、この限界が記述される。
位相のいくつかについて、経路空間と分布空間の両方における極限力学の記述を得る。
収束証明は平均場粒子系と確率過程のツールの混合を含む。
その結果,大規模ニューラルネットワークにおけるドロップアウトの新たな理論的理解の基盤となった。
関連論文リスト
- The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。
この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文 参考訳(メタデータ) (2025-06-16T08:35:16Z) - Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Plateau Phenomenon in Gradient Descent Training of ReLU networks:
Explanation, Quantification and Avoidance [0.0]
一般に、ニューラルネットワークは勾配型最適化法によって訓練される。
トレーニング開始時に損失関数は急速に低下するが,比較的少数のステップの後に著しく低下する。
本研究の目的は,高原現象の根本原因の同定と定量化である。
論文 参考訳(メタデータ) (2020-07-14T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。