論文の概要: The loss landscape of deep linear neural networks: a second-order analysis
- arxiv url: http://arxiv.org/abs/2107.13289v3
- Date: Wed, 25 Sep 2024 07:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:57:56.086352
- Title: The loss landscape of deep linear neural networks: a second-order analysis
- Title(参考訳): 深部線形ニューラルネットワークのロスランドスケープ:2次解析
- Authors: El Mehdi Achour, François Malgouyres, Sébastien Gerchinovitz,
- Abstract要約: 正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
- 参考スコア(独自算出の注目度): 9.85879905918703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the optimization landscape of deep linear neural networks with the square loss. It is known that, under weak assumptions, there are no spurious local minima and no local maxima. However, the existence and diversity of non-strict saddle points, which can play a role in first-order algorithms' dynamics, have only been lightly studied. We go a step further with a full analysis of the optimization landscape at order 2. We characterize, among all critical points, which are global minimizers, strict saddle points, and non-strict saddle points. We enumerate all the associated critical values. The characterization is simple, involves conditions on the ranks of partial matrix products, and sheds some light on global convergence or implicit regularization that have been proved or observed when optimizing linear neural networks. In passing, we provide an explicit parameterization of the set of all global minimizers and exhibit large sets of strict and non-strict saddle points.
- Abstract(参考訳): 正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
弱い仮定の下では、急激な局所ミニマは存在せず、局所的な極小マも存在しないことが知られている。
しかし、一階アルゴリズムの力学において重要な役割を果たしうる非制限サドル点の存在と多様性は、わずかに研究されているだけである。
最適化の展望を順2で完全に分析し、さらに一歩進める。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
関連するすべての臨界値を列挙する。
特徴付けは単純で、部分行列積のランクの条件を伴い、線形ニューラルネットワークを最適化する際に証明または観察された大域収束や暗黙の正則化にいくらか光を当てる。
通過において、全大域最小化器の集合の明示的なパラメータ化を提供し、厳密で非制限的なサドル点の集合を示す。
関連論文リスト
- Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文 参考訳(メタデータ) (2022-02-23T14:41:54Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Landscape analysis for shallow ReLU neural networks: complete
classification of critical points for affine target functions [3.9103337761169947]
対象関数がアフィンである場合の臨界点の完全な分類を提供する。
我々のアプローチは、reluニューラルネットワークで起こりうる様々な種類の隠れたニューロンを注意深く分析することに基づいている。
論文 参考訳(メタデータ) (2021-03-19T17:35:01Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - The Effects of Mild Over-parameterization on the Optimization Landscape
of Shallow ReLU Neural Networks [36.35321290763711]
我々は,教師と学生のネットワークが同じ数のニューロンを持つ場合,その目的がグローバルなミニマを強く囲むことを証明した。
非グロバルなミニマの場合、単一のニューロンだけを追加することで、非グロバルな最小値がサドルポイントとなることが証明される。
論文 参考訳(メタデータ) (2020-06-01T15:13:15Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。