論文の概要: Variational Learning Finds Flatter Solutions at the Edge of Stability
- arxiv url: http://arxiv.org/abs/2506.12903v1
- Date: Sun, 15 Jun 2025 16:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.096826
- Title: Variational Learning Finds Flatter Solutions at the Edge of Stability
- Title(参考訳): 変分学習による安定性の限界におけるフラッター解の発見
- Authors: Avrajit Ghosh, Bai Cong, Rio Yokota, Saiprasad Ravishankar, Rongrong Wang, Molei Tao, Mohammad Emtiyaz Khan, Thomas Möllenhoff,
- Abstract要約: 変分学習(VL)の暗黙的な正規化を安定性のエッジ(EoS)フレームワークを用いて解析する。
これらの結果は、後部の共分散と後部のモンテカルロ試料の数を制御することによって導かれる。
ResNet や ViT など,さまざまな大規模ネットワーク上でこれらの知見を実証的に検証する。
- 参考スコア(独自算出の注目度): 34.417883409228715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Learning (VL) has recently gained popularity for training deep neural networks and is competitive to standard learning methods. Part of its empirical success can be explained by theories such as PAC-Bayes bounds, minimum description length and marginal likelihood, but there are few tools to unravel the implicit regularization in play. Here, we analyze the implicit regularization of VL through the Edge of Stability (EoS) framework. EoS has previously been used to show that gradient descent can find flat solutions and we extend this result to VL to show that it can find even flatter solutions. This is obtained by controlling the posterior covariance and the number of Monte Carlo samples from the posterior. These results are derived in a similar fashion as the standard EoS literature for deep learning, by first deriving a result for a quadratic problem and then extending it to deep neural networks. We empirically validate these findings on a wide variety of large networks, such as ResNet and ViT, to find that the theoretical results closely match the empirical ones. Ours is the first work to analyze the EoS dynamics in VL.
- Abstract(参考訳): 変分学習(VL)は最近、ディープニューラルネットワークのトレーニングで人気を集め、標準的な学習手法と競合している。
その経験的成功の一部は、PAC-ベイズ境界、最小記述長、限界確率などの理論によって説明できるが、プレイにおける暗黙の正規化を解くための道具はほとんどない。
ここでは、安定性のエッジ(EoS)フレームワークを用いて、VLの暗黙的な正規化を分析する。
EoSは以前、勾配降下が平坦な解を見つけることを示し、この結果をVLに拡張して、より平坦な解を見つけることを示すために用いられてきた。
これは後部共分散と後部からのモンテカルロサンプル数を制御することによって得られる。
これらの結果は、まず2次問題の結果を導出し、それをディープニューラルネットワークに拡張することで、ディープラーニングのための標準的なEoS文学と同じような方法で導出される。
本研究では,ResNet や ViT など多種多様な大規模ネットワーク上でこれらの知見を実証的に検証し,理論的結果が経験的結果と密接に一致していることを確認する。
私たちの研究は、VLでEoSのダイナミクスを分析する最初の成果です。
関連論文リスト
- On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling [11.168336416219857]
既存の無限幅理論は、大きな学習率で不安定を予測し、安定した学習率で特徴学習を消滅させる。
この相違は,カタパルト効果などの有限幅現象によって完全に説明できないことを示す。
制御された分散状態下でのニューラルネットワークの動作はCE損失では有効であるが,MSE損失では不可能である。
論文 参考訳(メタデータ) (2025-05-28T15:40:48Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Compressive Sensing and Neural Networks from a Statistical Learning
Perspective [4.561032960211816]
線形測定の少ないスパース再構成に適したニューラルネットワークのクラスに対する一般化誤差解析を提案する。
現実的な条件下では、一般化誤差は層数で対数的にしかスケールせず、測定数ではほとんど線形である。
論文 参考訳(メタデータ) (2020-10-29T15:05:43Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。