論文の概要: Loss landscapes and optimization in over-parameterized non-linear
systems and neural networks
- arxiv url: http://arxiv.org/abs/2003.00307v2
- Date: Wed, 26 May 2021 19:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:35:09.833531
- Title: Loss landscapes and optimization in over-parameterized non-linear
systems and neural networks
- Title(参考訳): 過パラメータ非線形システムとニューラルネットワークにおけるロスランドスケープと最適化
- Authors: Chaoyue Liu, Libin Zhu, Mikhail Belkin
- Abstract要約: 広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
- 参考スコア(独自算出の注目度): 20.44438519046223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep learning is due, to a large extent, to the remarkable
effectiveness of gradient-based optimization methods applied to large neural
networks. The purpose of this work is to propose a modern view and a general
mathematical framework for loss landscapes and efficient optimization in
over-parameterized machine learning models and systems of non-linear equations,
a setting that includes over-parameterized deep neural networks. Our starting
observation is that optimization problems corresponding to such systems are
generally not convex, even locally. We argue that instead they satisfy PL$^*$,
a variant of the Polyak-Lojasiewicz condition on most (but not all) of the
parameter space, which guarantees both the existence of solutions and efficient
optimization by (stochastic) gradient descent (SGD/GD). The PL$^*$ condition of
these systems is closely related to the condition number of the tangent kernel
associated to a non-linear system showing how a PL$^*$-based non-linear theory
parallels classical analyses of over-parameterized linear equations. We show
that wide neural networks satisfy the PL$^*$ condition, which explains the
(S)GD convergence to a global minimum. Finally we propose a relaxation of the
PL$^*$ condition applicable to "almost" over-parameterized systems.
- Abstract(参考訳): ディープラーニングの成功は、大規模ニューラルネットワークに適用される勾配に基づく最適化手法の顕著な有効性に起因している。
本研究の目的は、過度パラメータ化されたディープラーニングモデルと非線形方程式のシステムにおいて、損失ランドスケープと効率的な最適化のための現代的なビューと一般的な数学的フレームワークを提案することである。
このようなシステムに対応する最適化問題は、一般的には局所的にも凸ではない。
代わりに、パラメータ空間のほとんどの(すべてではないが)ポリアック-ロジャシェヴィチ条件の変種であるpl$^*$を満たし、解の存在と(統計的)勾配降下(sgd/gd)による効率的な最適化の両方を保証する。
これらの系のpl$^*$条件は、pl$^*$ベースの非線形理論が超パラメータ線型方程式の古典解析とどのように平行するかを示す非線形系に関連する接核の条件数と密接に関係している。
広帯域ニューラルネットワークはpl$^*$条件を満たしており、これは(s)gd収束を大域的最小値に説明している。
最後に、「ほぼ」過パラメータ化系に適用可能なPL$^*$条件の緩和を提案する。
関連論文リスト
- Learning to optimize with convergence guarantees using nonlinear system theory [0.4143603294943439]
本研究では,スムーズな目的関数に対するアルゴリズムの非制約パラメトリゼーションを提案する。
特に、私たちのフレームワークは自動微分ツールと直接互換性があります。
論文 参考訳(メタデータ) (2024-03-14T13:40:26Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Improved Initialization of State-Space Artificial Neural Networks [0.0]
ブラックボックスの非線形状態空間モデルの同定は、状態方程式と出力方程式の柔軟な表現を必要とする。
本稿では,リカレントニューラルネットワークとして表現される非線形状態空間モデルに対する改良手法を提案する。
論文 参考訳(メタデータ) (2021-03-26T15:16:08Z) - NTopo: Mesh-free Topology Optimization using Implicit Neural
Representations [35.07884509198916]
トポロジ最適化問題に対処する新しい機械学習手法を提案する。
我々は多層パーセプトロン(MLP)を用いて密度場と変位場の両方をパラメータ化する。
実験を通じて示すように、私たちのアプローチの大きな利点は、継続的ソリューション空間の自己教師付き学習を可能にすることです。
論文 参考訳(メタデータ) (2021-02-22T05:25:22Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - The role of optimization geometry in single neuron learning [12.891722496444036]
近年,表現型ニューラルネットワークの学習において,最適化アルゴリズムの選択が一般化性能に影響を与えることが実証されている。
幾何学と特徴幾何学の相互作用が、どのようにしてアウト・オブ・サンプレットを導き、性能を向上させるかを示す。
論文 参考訳(メタデータ) (2020-06-15T17:39:44Z) - Proximal Gradient Algorithm with Momentum and Flexible Parameter Restart
for Nonconvex Optimization [73.38702974136102]
アルゴリズムの高速化のために,パラメータ再起動方式が提案されている。
本論文では,非滑らかな問題を解くアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。