論文の概要: Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent
- arxiv url: http://arxiv.org/abs/2106.13792v1
- Date: Fri, 25 Jun 2021 17:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:11:58.015276
- Title: Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent
- Title(参考訳): Proxy Convexity: グラディエントDescentでトレーニングされたニューラルネットワーク解析のための統一フレームワーク
- Authors: Spencer Frei and Quanquan Gu
- Abstract要約: 学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
- 参考スコア(独自算出の注目度): 95.94432031144716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the optimization objectives for learning neural networks are highly
non-convex, gradient-based methods have been wildly successful at learning
neural networks in practice. This juxtaposition has led to a number of recent
studies on provable guarantees for neural networks trained by gradient descent.
Unfortunately, the techniques in these works are often highly specific to the
problem studied in each setting, relying on different assumptions on the
distribution, optimization parameters, and network architectures, making it
difficult to generalize across different settings. In this work, we propose a
unified non-convex optimization framework for the analysis of neural network
training. We introduce the notions of proxy convexity and proxy
Polyak-Lojasiewicz (PL) inequalities, which are satisfied if the original
objective function induces a proxy objective function that is implicitly
minimized when using gradient methods. We show that stochastic gradient descent
(SGD) on objectives satisfying proxy convexity or the proxy PL inequality leads
to efficient guarantees for proxy objective functions. We further show that
many existing guarantees for neural networks trained by gradient descent can be
unified through proxy convexity and proxy PL inequalities.
- Abstract(参考訳): ニューラルネットワークを学習するための最適化目標は非常に非凸であるが、勾配に基づく手法は実際にニューラルネットワークを学習する上で大きな成功を収めている。
この仮定は、勾配降下によって訓練されたニューラルネットワークの証明可能な保証に関する最近の多くの研究につながった。
残念なことに、これらの研究のテクニックは、分散、最適化パラメータ、ネットワークアーキテクチャの異なる仮定に依存して、各設定で研究された問題に非常に特化していることが多い。
本稿では,ニューラルネットワークの学習分析のための統合型非凸最適化フレームワークを提案する。
本稿では,従来の目的関数が勾配法を用いて暗黙的に最小化されるプロキシ目的関数を誘導した場合に満足する,プロキシ凸性とプロキシのPolyak-Lojasiewicz(PL)不等式について紹介する。
確率的勾配降下 (sgd) は, プロキシ凸性あるいはプロキシplの不等式を満たす目的に対して, プロキシ目的関数の効率的な保証をもたらす。
さらに,勾配降下によって学習されたニューラルネットワークに対する既存の保証の多くは,プロキシ凸性とプロキシpl不等式によって統一できることを示した。
関連論文リスト
- Provable Guarantees for Neural Networks via Gradient Feature Learning [15.413985018920018]
本研究では,勾配降下法により学習した2層ネットワークの統一解析フレームワークを提案する。
このフレームワークは、特徴学習の原理を原型的勾配から中心とし、その有効性はいくつかの問題における応用によって実証されている。
論文 参考訳(メタデータ) (2023-10-19T01:45:37Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - GradDiv: Adversarial Robustness of Randomized Neural Networks via
Gradient Diversity Regularization [3.9157051137215504]
プロキシ勾配を用いた敵攻撃がランダム化ニューラルネットワークに与える影響について検討する。
より散らばった場合,プロキシ勾配は効果が低いことを示す。
ニューラルネットワークを構築するための勾配の濃度を最小化するグラディエント・ダイバーシティ(GradDiv)正則化を提案する。
論文 参考訳(メタデータ) (2021-07-06T06:57:40Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z) - The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。
いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文 参考訳(メタデータ) (2017-08-01T21:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。