論文の概要: Implicit Regularization of Infinitesimally-perturbed Gradient Descent Toward Low-dimensional Solutions
- arxiv url: http://arxiv.org/abs/2505.17304v1
- Date: Thu, 22 May 2025 21:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.701557
- Title: Implicit Regularization of Infinitesimally-perturbed Gradient Descent Toward Low-dimensional Solutions
- Title(参考訳): 無限摂動勾配の低次元解へのインプシット規則化
- Authors: Jianhao Ma, Geyu Liang, Salar Fattahi,
- Abstract要約: 帰納正規化とは、局所探索アルゴリズムが低次元の解に収束する現象を指す。
暗黙の規則化の成功は、暗黙の領域に近づきながら、厳密なサドル勾配から効率的に逃れる能力にかかっている。
- 参考スコア(独自算出の注目度): 16.45408984254899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit regularization refers to the phenomenon where local search algorithms converge to low-dimensional solutions, even when such structures are neither explicitly specified nor encoded in the optimization problem. While widely observed, this phenomenon remains theoretically underexplored, particularly in modern over-parameterized problems. In this paper, we study the conditions that enable implicit regularization by investigating when gradient-based methods converge to second-order stationary points (SOSPs) within an implicit low-dimensional region of a smooth, possibly nonconvex function. We show that successful implicit regularization hinges on two key conditions: $(i)$ the ability to efficiently escape strict saddle points, while $(ii)$ maintaining proximity to the implicit region. Existing analyses enabling the convergence of gradient descent (GD) to SOSPs often rely on injecting large perturbations to escape strict saddle points. However, this comes at the cost of deviating from the implicit region. The central premise of this paper is that it is possible to achieve the best of both worlds: efficiently escaping strict saddle points using infinitesimal perturbations, while controlling deviation from the implicit region via a small deviation rate. We show that infinitesimally perturbed gradient descent (IPGD), which can be interpreted as GD with inherent ``round-off errors'', can provably satisfy both conditions. We apply our framework to the problem of over-parameterized matrix sensing, where we establish formal guarantees for the implicit regularization behavior of IPGD. We further demonstrate through extensive experiments that these insights extend to a broader class of learning problems.
- Abstract(参考訳): インプリシト正規化(インプリシト正規化)とは、局所探索アルゴリズムが低次元の解に収束する現象をいう。
広く観察されているが、この現象は理論上未解明であり、特に現代の過度パラメーター化問題において顕著である。
本稿では,勾配に基づく手法が滑らかな非凸関数の暗黙的低次元領域内の2階定常点(SOSP)に収束するかどうかを調べることにより,暗黙の正則化を可能にする条件について検討する。
暗黙的正則化の成功は2つの重要な条件に基づいていることを示す。
(i)$は厳格なサドルポイントを効率的に逃がし、$は
(ii)暗黙の領域に近接を維持する。
勾配降下(GD)をSOSPに収束させる既存の分析は、しばしば厳密なサドルポイントから逃れるために大きな摂動を注入することに依存する。
しかし、これは暗黙の領域から逸脱するコストがかかる。
この論文の中心的な前提は、無限小の摂動を用いて厳密なサドルポイントを効率的に逃がし、小さな偏差率で暗黙の領域からの偏差を制御し、両方の世界のベストを達成できるということである。
無限小摂動勾配降下 (IPGD) は, 固有な「ラウンド・オフ・エラー」を持つGDと解釈でき, 両条件を確実に満たせることを示す。
IPGDの暗黙的正規化動作の形式的保証を確立するため、過パラメータ化行列センシングの問題に我々の枠組みを適用した。
さらに、これらの知見がより広範な学習問題へと拡張する広範な実験を通じて、我々はさらに実演する。
関連論文リスト
- From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Riemannian stochastic optimization methods avoid strict saddle points [68.80251170757647]
研究中のポリシーは、確率 1 の厳密なサドル点/部分多様体を避けていることを示す。
この結果は、アルゴリズムの極限状態が局所最小値にしかならないことを示すため、重要な正当性チェックを提供する。
論文 参考訳(メタデータ) (2023-11-04T11:12:24Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。