論文の概要: Leveraging Continuous Time to Understand Momentum When Training Diagonal
Linear Networks
- arxiv url: http://arxiv.org/abs/2403.05293v1
- Date: Fri, 8 Mar 2024 13:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 19:38:06.164760
- Title: Leveraging Continuous Time to Understand Momentum When Training Diagonal
Linear Networks
- Title(参考訳): 対角的線形ネットワークの訓練における運動量理解のための連続時間の利用
- Authors: Hristo Papazov, Scott Pesme, Nicolas Flammarion
- Abstract要約: ステップサイズ$gamma$と運動量パラメータ$beta$を用いて運動量勾配勾配の解析に連続時間アプローチを用いる。
私たちは、$lambda$の小さな値がスパースソリューションの回復に役立つことを証明しています。
- 参考スコア(独自算出の注目度): 21.176224458126285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the effect of momentum on the optimisation
trajectory of gradient descent. We leverage a continuous-time approach in the
analysis of momentum gradient descent with step size $\gamma$ and momentum
parameter $\beta$ that allows us to identify an intrinsic quantity $\lambda =
\frac{ \gamma }{ (1 - \beta)^2 }$ which uniquely defines the optimisation path
and provides a simple acceleration rule. When training a $2$-layer diagonal
linear network in an overparametrised regression setting, we characterise the
recovered solution through an implicit regularisation problem. We then prove
that small values of $\lambda$ help to recover sparse solutions. Finally, we
give similar but weaker results for stochastic momentum gradient descent. We
provide numerical experiments which support our claims.
- Abstract(参考訳): 本研究では,傾斜勾配の最適化軌道に対する運動量の影響について検討する。
ステップサイズ $\gamma$ と運動量パラメータ $\beta$ による運動量勾配降下の解析において、連続時間アプローチを活用し、本質量 $\lambda = \frac{ \gamma }{ (1 - \beta)^2 }$ を識別し、最適化パスを一意に定義し、簡単な加速度ルールを提供する。
過パラメータ回帰設定で$$$のダイアゴナル線形ネットワークをトレーニングするとき、我々は回復した解を暗黙の正規化問題を通じて特徴づける。
そして、$\lambda$の小さな値がスパース解の回復に役立つことを証明します。
最後に、確率運動量勾配降下について類似しているが弱い結果を与える。
我々の主張を裏付ける数値実験を行う。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency [47.8739414267201]
線形分離可能なデータを用いたロジスティック回帰に一定の段差を持つ勾配降下(GD)を考える。
GD はこの初期振動位相を急速に終了し、$mathcalO(eta)$ steps となり、その後$tildemathcalO (1 / (eta t) )$ convergence rate が得られることを示す。
我々の結果は、予算が$T$ ステップであれば、GD は攻撃的なステップサイズで $tildemathcalO (1/T2)$ の加速損失を達成できることを示している。
論文 参考訳(メタデータ) (2024-02-24T23:10:28Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Implicit Regularization for Group Sparsity [33.487964460794764]
正方形回帰損失に対する勾配勾配は, 明示的な正則化を伴わずに, 群間隔構造を持つ解に偏りを示す。
一般雑音設定における回帰問題の勾配ダイナミクスを解析し,最小最適誤差率を求める。
サイズ 1 群の退化の場合、我々の手法は疎線形回帰の新しいアルゴリズムを生み出す。
論文 参考訳(メタデータ) (2023-01-29T20:54:03Z) - Magnitude and Angle Dynamics in Training Single ReLU Neurons [45.886537625951256]
勾配フロー $w(t)$ を等級 $w(t)$ と角 $phi(t):= pi -theta(t) $ に分解する。
小型初期化は深い単一ReLUニューロンに対して緩やかな収束速度を誘導する。
論文 参考訳(メタデータ) (2022-09-27T13:58:46Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - The Implicit Regularization of Stochastic Gradient Flow for Least
Squares [24.976079444818552]
最小二乗回帰の基本問題に適用したミニバッチ勾配勾配の暗黙正則化について検討した。
我々は勾配流と呼ばれる勾配降下と同じモーメントを持つ連続時間微分方程式を利用する。
チューニングパラメータ $lambda = 1/t$ で、リッジレグレッションを越えて、時間 $t$ での勾配フローの過剰なリスクに制限を与えます。
論文 参考訳(メタデータ) (2020-03-17T16:37:25Z) - Stochastic gradient-free descents [8.663453034925363]
本稿では,最適化問題の解法として,モーメント付き勾配法と加速勾配を提案する。
本研究では,これらの手法の収束挙動を平均分散フレームワークを用いて解析する。
論文 参考訳(メタデータ) (2019-12-31T13:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。