論文の概要: On the Stability Properties and the Optimization Landscape of Training
Problems with Squared Loss for Neural Networks and General Nonlinear Conic
Approximation Schemes
- arxiv url: http://arxiv.org/abs/2011.03293v3
- Date: Thu, 2 Dec 2021 10:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:34:29.815460
- Title: On the Stability Properties and the Optimization Landscape of Training
Problems with Squared Loss for Neural Networks and General Nonlinear Conic
Approximation Schemes
- Title(参考訳): ニューラルネットワークと一般非線形円錐近似スキームのための正方形損失を持つ訓練問題の安定性と最適化景観について
- Authors: Constantin Christof
- Abstract要約: ニューラルネットワークと一般的な非線形円錐近似スキームの2乗損失を伴うトレーニング問題の最適化景観と安定性特性について検討する。
これらの不安定性に寄与する同じ効果が、サドル点や急激な局所ミニマの出現の原因でもあることを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the optimization landscape and the stability properties of training
problems with squared loss for neural networks and general nonlinear conic
approximation schemes. It is demonstrated that, if a nonlinear conic
approximation scheme is considered that is (in an appropriately defined sense)
more expressive than a classical linear approximation approach and if there
exist unrealizable label vectors, then a training problem with squared loss is
necessarily unstable in the sense that its solution set depends discontinuously
on the label vector in the training data. We further prove that the same
effects that are responsible for these instability properties are also the
reason for the emergence of saddle points and spurious local minima, which may
be arbitrarily far away from global solutions, and that neither the instability
of the training problem nor the existence of spurious local minima can, in
general, be overcome by adding a regularization term to the objective function
that penalizes the size of the parameters in the approximation scheme. The
latter results are shown to be true regardless of whether the assumption of
realizability is satisfied or not. We demonstrate that our analysis in
particular applies to training problems for free-knot interpolation schemes and
deep and shallow neural networks with variable widths that involve an arbitrary
mixture of various activation functions (e.g., binary, sigmoid, tanh, arctan,
soft-sign, ISRU, soft-clip, SQNL, ReLU, leaky ReLU, soft-plus, bent identity,
SILU, ISRLU, and ELU). In summary, the findings of this paper illustrate that
the improved approximation properties of neural networks and general nonlinear
conic approximation instruments are linked in a direct and quantifiable way to
undesirable properties of the optimization problems that have to be solved in
order to train them.
- Abstract(参考訳): ニューラルネットワークと一般非線形円錐近似スキームにおける二乗損失を伴う学習問題の最適化景観と安定性について検討した。
非線形円錐近似スキームが(適切に定義された意味で)古典線形近似法よりも表現力が高いと考えられ、また、実現不可能なラベルベクトルが存在する場合、その解集合がラベルベクトルに不連続に依存するという意味で、正方形損失のトレーニング問題は必然的に不安定であることを示す。
さらに,これらの不安定性に寄与する同じ効果が,大域解から任意に遠ざかるサドル点やスプリアス局所ミニマの発生の原因でもあることを証明し,近似スキームのパラメータの大きさをペナライズする目的関数に正規化項を加えることにより,トレーニング問題の不安定性やスプリアス局所ミニマの存在を克服できないことを証明した。
後者の結果は、実現可能性の仮定が満たされるかどうかに関わらず真であることが示される。
特に,自由結び目補間スキームと,様々な活性化関数(例えば,バイナリ,シグモイド,タン,アークタン,ソフトサイン,ISRU,ソフトクリップ,SQNL,ReLU,漏洩ReLU,ソフトプラス,ベントID,SILU,ISRLU,ELU)の任意の混合を含む幅の可変ニューラルネットワークのトレーニング問題に適用した。
本稿では,ニューラルネットワークと一般非線形円錐近似器の改良した近似特性が,学習のために解決しなければならない最適化問題の望ましくない性質に,直接的かつ定量的にリンクされていることを示す。
関連論文リスト
- GLinSAT: The General Linear Satisfiability Neural Network Layer By Accelerated Gradient Descent [12.409030267572243]
まず、エントロピー規則化線形計画問題として、ニューラルネットワーク出力予測問題を再構成する。
数値的性能向上を伴う高速化勾配降下アルゴリズムに基づいて,その問題を解決するため,アーキテクチャGLinSATを提案する。
これは、すべての操作が微分可能で行列分解自由な、最初の一般線形満足層である。
論文 参考訳(メタデータ) (2024-09-26T03:12:53Z) - FEM-based Neural Networks for Solving Incompressible Fluid Flows and Related Inverse Problems [41.94295877935867]
偏微分方程式で記述された技術システムの数値シミュレーションと最適化は高価である。
この文脈で比較的新しいアプローチは、ニューラルネットワークの優れた近似特性と古典的有限要素法を組み合わせることである。
本稿では, この手法を, サドルポイント問題と非線形流体力学問題に拡張する。
論文 参考訳(メタデータ) (2024-09-06T07:17:01Z) - Controlled Learning of Pointwise Nonlinearities in Neural-Network-Like Architectures [14.93489065234423]
本稿では,階層型計算アーキテクチャにおける自由形式非線形性のトレーニングのための一般的な変分フレームワークを提案する。
傾斜制約により、1-Lipschitz安定性、堅固な非膨張性、単調性/可逆性といった特性を課すことができる。
本稿では, 非線形性を適切な(一様でない)B-スプラインベースで表現することで, 数値関数最適化問題の解法を示す。
論文 参考訳(メタデータ) (2024-08-23T14:39:27Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - Loss landscapes and optimization in over-parameterized non-linear
systems and neural networks [20.44438519046223]
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
広域ニューラルネットワークがPL$*$条件を満たすことを示し、(S)GD収束を大域最小値に説明する。
論文 参考訳(メタデータ) (2020-02-29T17:18:28Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。