論文の概要: The Convex Geometry of Backpropagation: Neural Network Gradient Flows
Converge to Extreme Points of the Dual Convex Program
- arxiv url: http://arxiv.org/abs/2110.06488v1
- Date: Wed, 13 Oct 2021 04:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 01:34:18.363280
- Title: The Convex Geometry of Backpropagation: Neural Network Gradient Flows
Converge to Extreme Points of the Dual Convex Program
- Title(参考訳): バックプロパゲーションの凸幾何学:ニューラルネットワーク勾配流は双対凸プログラムの極点に収束する
- Authors: Yifei Wang, Mert Pilanci
- Abstract要約: 凸形状と双対性の観点から2層ReLULUネットワークの非定常流について検討する。
そこで本研究では, 原始二重対応により, 非下位降下問題を特定することができることを示す。
- 参考スコア(独自算出の注目度): 26.143558180103334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study non-convex subgradient flows for training two-layer ReLU neural
networks from a convex geometry and duality perspective. We characterize the
implicit bias of unregularized non-convex gradient flow as convex
regularization of an equivalent convex model. We then show that the limit
points of non-convex subgradient flows can be identified via primal-dual
correspondence in this convex optimization problem. Moreover, we derive a
sufficient condition on the dual variables which ensures that the stationary
points of the non-convex objective are the KKT points of the convex objective,
thus proving convergence of non-convex gradient flows to the global optimum.
For a class of regular training data distributions such as orthogonal separable
data, we show that this sufficient condition holds. Therefore, non-convex
gradient flows in fact converge to optimal solutions of a convex optimization
problem. We present numerical results verifying the predictions of our theory
for non-convex subgradient descent.
- Abstract(参考訳): 凸形状と双対性の観点から2層reluニューラルネットワークを訓練するための非凸部分勾配流の研究を行った。
非正規化非凸勾配流の暗黙のバイアスを等価凸モデルの凸正規化として特徴づける。
次に、この凸最適化問題において、非凸下降流の極限点を原始双対対応により同定できることを示す。
さらに、非凸対象の定常点が凸対象のKKT点であることを保証する双対変数上の十分条件を導出することにより、非凸勾配の収束を大域的最適に証明する。
直交分離データのような正規なトレーニングデータ分布のクラスでは、この十分条件が成立することを示す。
したがって、非凸勾配流は実際には凸最適化問題の最適解に収束する。
我々は,非凸下降勾配の理論の予測を検証した数値的な結果を示す。
関連論文リスト
- Independently-Normalized SGD for Generalized-Smooth Nonconvex Optimization [19.000530691874516]
我々は、多くの非機械学習問題が従来の非スムーズな非スムーズな状態を超えるような条件を満たすことを示した。
独立サンプリングと正規化を利用する独立正規化勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T21:52:00Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Projective Proximal Gradient Descent for A Class of Nonconvex Nonsmooth Optimization Problems: Fast Convergence Without Kurdyka-Lojasiewicz (KL) Property [19.988762532185884]
非滑らかな最適化問題は、学習にとって重要かつ困難である。
本稿では,PSGDの高速収束を示す新しい解析法について述べる。
論文 参考訳(メタデータ) (2023-04-20T17:39:24Z) - Linear Convergence of ISTA and FISTA [8.261388753972234]
疎表現を用いた線形逆問題の解法として,反復縮小保持アルゴリズム (ISTA) のクラスを再検討する。
滑らかな部分を凸とする以前の仮定は最小二乗モデルを弱める。
目的値と2乗近位下次ノルムの両方において、線形収束を合成最適化に一般化する。
論文 参考訳(メタデータ) (2022-12-13T02:02:50Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z) - GradientDICE: Rethinking Generalized Offline Estimation of Stationary
Values [75.17074235764757]
対象ポリシーの状態分布とサンプリング分布の密度比を推定するグラディエントDICEを提案する。
GenDICEはそのような密度比を推定するための最先端技術である。
論文 参考訳(メタデータ) (2020-01-29T22:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。