論文の概要: Mean-field analysis for heavy ball methods: Dropout-stability,
connectivity, and global convergence
- arxiv url: http://arxiv.org/abs/2210.06819v1
- Date: Thu, 13 Oct 2022 08:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-14 14:49:54.562523
- Title: Mean-field analysis for heavy ball methods: Dropout-stability,
connectivity, and global convergence
- Title(参考訳): 重球法の平均場解析:ドロップアウト安定性,接続性,大域収束
- Authors: Diyuan Wu, Vyacheslav Kungurtsev, Marco Mondelli
- Abstract要約: 本稿では,2層および3層からなるニューラルネットワークに着目し,SHBの解の性質を厳密に把握する。
有限幅ネットワークにおける平均場限界とSHBダイナミクスの間には,大域的最適度への収束性を示し,定量的な境界を与える。
- 参考スコア(独自算出の注目度): 17.63517562327928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stochastic heavy ball method (SHB), also known as stochastic gradient
descent (SGD) with Polyak's momentum, is widely used in training neural
networks. However, despite the remarkable success of such algorithm in
practice, its theoretical characterization remains limited. In this paper, we
focus on neural networks with two and three layers and provide a rigorous
understanding of the properties of the solutions found by SHB: \emph{(i)}
stability after dropping out part of the neurons, \emph{(ii)} connectivity
along a low-loss path, and \emph{(iii)} convergence to the global optimum. To
achieve this goal, we take a mean-field view and relate the SHB dynamics to a
certain partial differential equation in the limit of large network widths.
This mean-field perspective has inspired a recent line of work focusing on SGD
while, in contrast, our paper considers an algorithm with momentum. More
specifically, after proving existence and uniqueness of the limit differential
equations, we show convergence to the global optimum and give a quantitative
bound between the mean-field limit and the SHB dynamics of a finite-width
network. Armed with this last bound, we are able to establish the
dropout-stability and connectivity of SHB solutions.
- Abstract(参考訳): The stochastic Heavy Ball Method (SHB)は、Polyakの運動量を持つ確率勾配降下(SGD)としても知られ、ニューラルネットワークのトレーニングに広く用いられている。
しかし、そのようなアルゴリズムの実際的な成功にもかかわらず、その理論的特徴は限定的である。
本稿では,2層と3層からなるニューラルネットワークに着目し,SHBが発見した解の性質を厳密に理解する。
(i) ニューロンの一部を離脱した後の安定性, \emph{
(ii)} 低損失パスに沿った接続と \emph{
(iii) グローバルな最適度に収束する。
この目的を達成するために,shb動力学をネットワーク幅の広い限度における偏微分方程式に関連付け,平均場観測を行う。
この平均場パースペクティブは、SGDに焦点を当てた最近の研究にインスピレーションを与え、対照的に、我々の論文は運動量を持つアルゴリズムを考察している。
より具体的には、極限微分方程式の存在と特異性を証明した後、大域的最適値への収束を示し、有限幅ネットワークの平均場極限とSHBダイナミクスの間の定量的境界を与える。
この最後の制限で、SHBソリューションのドロップアウト安定性と接続性を確立することができます。
関連論文リスト
- Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Limiting fluctuation and trajectorial stability of multilayer neural
networks with mean field training [3.553493344868413]
ネットワーク深度における多層ネットワークの場合の変動について検討する。
この2階のMF限界におけるニューロン間の複雑な相互作用の枠組みを実演する。
極限定理は、この極限と大幅ネットワークのゆらぎを関連付けることが証明されている。
論文 参考訳(メタデータ) (2021-10-29T17:58:09Z) - Global Convergence of Three-layer Neural Networks in the Mean Field
Regime [3.553493344868413]
平均場系では、ニューラルネットワークは適切にスケールされ、幅は無限大になる傾向にあり、学習ダイナミクスは平均場限として知られる非線形かつ非自明な動的限界に傾向がある。
最近の研究は、この分析を2層ネットワークに適用し、グローバル収束保証を提供した。
平均場における非正規化フィードフォワード三層ネットワークに対する大域収束結果を示す。
論文 参考訳(メタデータ) (2021-05-11T17:45:42Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。