論文の概要: On the Stability Properties and the Optimization Landscape of Training
Problems with Squared Loss for Neural Networks and General Nonlinear Conic
Approximation Schemes
- arxiv url: http://arxiv.org/abs/2011.03293v3
- Date: Thu, 2 Dec 2021 10:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:34:29.815460
- Title: On the Stability Properties and the Optimization Landscape of Training
Problems with Squared Loss for Neural Networks and General Nonlinear Conic
Approximation Schemes
- Title(参考訳): ニューラルネットワークと一般非線形円錐近似スキームのための正方形損失を持つ訓練問題の安定性と最適化景観について
- Authors: Constantin Christof
- Abstract要約: ニューラルネットワークと一般的な非線形円錐近似スキームの2乗損失を伴うトレーニング問題の最適化景観と安定性特性について検討する。
これらの不安定性に寄与する同じ効果が、サドル点や急激な局所ミニマの出現の原因でもあることを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the optimization landscape and the stability properties of training
problems with squared loss for neural networks and general nonlinear conic
approximation schemes. It is demonstrated that, if a nonlinear conic
approximation scheme is considered that is (in an appropriately defined sense)
more expressive than a classical linear approximation approach and if there
exist unrealizable label vectors, then a training problem with squared loss is
necessarily unstable in the sense that its solution set depends discontinuously
on the label vector in the training data. We further prove that the same
effects that are responsible for these instability properties are also the
reason for the emergence of saddle points and spurious local minima, which may
be arbitrarily far away from global solutions, and that neither the instability
of the training problem nor the existence of spurious local minima can, in
general, be overcome by adding a regularization term to the objective function
that penalizes the size of the parameters in the approximation scheme. The
latter results are shown to be true regardless of whether the assumption of
realizability is satisfied or not. We demonstrate that our analysis in
particular applies to training problems for free-knot interpolation schemes and
deep and shallow neural networks with variable widths that involve an arbitrary
mixture of various activation functions (e.g., binary, sigmoid, tanh, arctan,
soft-sign, ISRU, soft-clip, SQNL, ReLU, leaky ReLU, soft-plus, bent identity,
SILU, ISRLU, and ELU). In summary, the findings of this paper illustrate that
the improved approximation properties of neural networks and general nonlinear
conic approximation instruments are linked in a direct and quantifiable way to
undesirable properties of the optimization problems that have to be solved in
order to train them.
- Abstract(参考訳): ニューラルネットワークと一般非線形円錐近似スキームにおける二乗損失を伴う学習問題の最適化景観と安定性について検討した。
非線形円錐近似スキームが(適切に定義された意味で)古典線形近似法よりも表現力が高いと考えられ、また、実現不可能なラベルベクトルが存在する場合、その解集合がラベルベクトルに不連続に依存するという意味で、正方形損失のトレーニング問題は必然的に不安定であることを示す。
さらに,これらの不安定性に寄与する同じ効果が,大域解から任意に遠ざかるサドル点やスプリアス局所ミニマの発生の原因でもあることを証明し,近似スキームのパラメータの大きさをペナライズする目的関数に正規化項を加えることにより,トレーニング問題の不安定性やスプリアス局所ミニマの存在を克服できないことを証明した。
後者の結果は、実現可能性の仮定が満たされるかどうかに関わらず真であることが示される。
特に,自由結び目補間スキームと,様々な活性化関数(例えば,バイナリ,シグモイド,タン,アークタン,ソフトサイン,ISRU,ソフトクリップ,SQNL,ReLU,漏洩ReLU,ソフトプラス,ベントID,SILU,ISRLU,ELU)の任意の混合を含む幅の可変ニューラルネットワークのトレーニング問題に適用した。
本稿では,ニューラルネットワークと一般非線形円錐近似器の改良した近似特性が,学習のために解決しなければならない最適化問題の望ましくない性質に,直接的かつ定量的にリンクされていることを示す。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Improving Generalization via Uncertainty Driven Perturbations [107.45752065285821]
トレーニングデータポイントの不確実性による摂動について考察する。
損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えてはならない。
線形モデルにおいて,UDPがロバスト性マージン決定を達成することが保証されていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:22:08Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Sparse Signal Reconstruction for Nonlinear Models via Piecewise Rational
Optimization [27.080837460030583]
劣化した信号を非線形歪みと限られたサンプリングレートで再構成する手法を提案する。
本手法は,不正確な適合項と罰則として定式化する。
シミュレーションの利点の観点から,この問題の活用方法を示す。
論文 参考訳(メタデータ) (2020-10-29T09:05:19Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Loss landscapes and optimization in over-parameterized non-linear
systems and neural networks [20.44438519046223]
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
論文 参考訳(メタデータ) (2020-02-29T17:18:28Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。