論文の概要: A Mirror Descent Perspective of Smoothed Sign Descent
- arxiv url: http://arxiv.org/abs/2410.14158v1
- Date: Fri, 18 Oct 2024 03:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:11.496956
- Title: A Mirror Descent Perspective of Smoothed Sign Descent
- Title(参考訳): Smoothed Sign Descent のミラーディフレッシュ・パースペクティブ
- Authors: Shuyang Wang, Diego Klabjan,
- Abstract要約: 回帰問題に対する安定性定数$varepsilon$のスムーズな符号降下のダイナミクスについて検討する。
双対力学の研究により、収束解をブレグマン発散関数を最小化する近似KKT点として特徴づける。
- 参考スコア(独自算出の注目度): 14.205909074145598
- License:
- Abstract: Recent work by Woodworth et al. (2020) shows that the optimization dynamics of gradient descent for overparameterized problems can be viewed as low-dimensional dual dynamics induced by a mirror map, explaining the implicit regularization phenomenon from the mirror descent perspective. However, the methodology does not apply to algorithms where update directions deviate from true gradients, such as ADAM. We use the mirror descent framework to study the dynamics of smoothed sign descent with a stability constant $\varepsilon$ for regression problems. We propose a mirror map that establishes equivalence to dual dynamics under some assumptions. By studying dual dynamics, we characterize the convergent solution as an approximate KKT point of minimizing a Bregman divergence style function, and show the benefit of tuning the stability constant $\varepsilon$ to reduce the KKT error.
- Abstract(参考訳): Woodworth et al (2020) による最近の研究によると、過パラメータ化問題に対する勾配降下の最適化力学は、ミラーマップによって誘導される低次元の双対力学と見なされ、ミラー降下の観点から暗黙の正則化現象を説明することができる。
しかし、この手法はADAMのような真の勾配から更新方向を逸脱するアルゴリズムには適用されない。
鏡面降下フレームワークを用いて、回帰問題に対して安定性定数$\varepsilon$で滑らかな符号降下のダイナミクスを研究する。
いくつかの仮定の下で双対力学と等価性を確立するミラーマップを提案する。
双対力学の研究により、収束解をブレグマン発散関数を最小化する近似KKT点として特徴づけ、安定性定数$\varepsilon$を調整してKKT誤差を低減する利点を示す。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On Learning Gaussian Multi-index Models with Gradient Flow [57.170617397894404]
高次元ガウスデータに対する多次元回帰問題の勾配流について検討する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
論文 参考訳(メタデータ) (2023-10-30T17:55:28Z) - Implicit Bias of Gradient Descent on Reparametrized Models: On
Equivalence to Mirror Descent [64.26008239544085]
通勤パラメトリゼーションのある勾配流は、関連するレジェンド関数を持つ連続ミラー降下と等価である。
ルジャンドル関数を持つ連続ミラー降下は、関連する通勤パラメトリゼーションを伴う勾配流と見なすことができる。
論文 参考訳(メタデータ) (2022-07-08T17:47:11Z) - Mirror Descent with Relative Smoothness in Measure Spaces, with
application to Sinkhorn and EM [11.007661197604065]
本稿では,無限次元環境下でのミラー降下アルゴリズムの収束性について検討する。
結果が結合分布とクルバック-リーブラー分岐に適用され、シンクホーンの最適輸送に対する原始的な反復がミラー降下に対応することを示す。
論文 参考訳(メタデータ) (2022-06-17T16:19:47Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Non-convex online learning via algorithmic equivalence [30.038975353298117]
アルゴリズム同値法 非勾配降下凸ミラー降下理論を示す。
我々の分析は、新しい単純なアルゴリズム法に基づいて、$frac23$を証明している。
論文 参考訳(メタデータ) (2022-05-30T16:50:34Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - A Continuous-Time Mirror Descent Approach to Sparse Phase Retrieval [24.17778927729799]
スパース位相探索に適用した連続時間ミラーを解析する。
これは、測定のみの集合からスパース信号を復元する問題である。
この問題に対して収束解析アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-20T10:03:44Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。