論文の概要: Annihilation of Spurious Minima in Two-Layer ReLU Networks
- arxiv url: http://arxiv.org/abs/2210.06088v1
- Date: Wed, 12 Oct 2022 11:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:57:40.862200
- Title: Annihilation of Spurious Minima in Two-Layer ReLU Networks
- Title(参考訳): 2層ReLUネットワークにおけるスプリアスミニマの消滅
- Authors: Yossi Arjevani, Michael Field
- Abstract要約: 正方形損失に対する2層ReLUニューラルネットワークの適合に関する最適化問題について検討する。
ニューロンを追加することで、対称的な刺激性のミニマをサドルに変えることができる。
また、損失関数の対称性構造から生じるある種の部分空間における降下方向の存在を証明した。
- 参考スコア(独自算出の注目度): 9.695960412426672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the optimization problem associated with fitting two-layer ReLU
neural networks with respect to the squared loss, where labels are generated by
a target network. Use is made of the rich symmetry structure to develop a novel
set of tools for studying the mechanism by which over-parameterization
annihilates spurious minima. Sharp analytic estimates are obtained for the loss
and the Hessian spectrum at different minima, and it is proved that adding
neurons can turn symmetric spurious minima into saddles; minima of lesser
symmetry require more neurons. Using Cauchy's interlacing theorem, we prove the
existence of descent directions in certain subspaces arising from the symmetry
structure of the loss function. This analytic approach uses techniques, new to
the field, from algebraic geometry, representation theory and symmetry
breaking, and confirms rigorously the effectiveness of over-parameterization in
making the associated loss landscape accessible to gradient-based methods. For
a fixed number of neurons and inputs, the spectral results remain true under
symmetry breaking perturbation of the target.
- Abstract(参考訳): ターゲットネットワークによってラベルが生成される2層ReLUニューラルネットワークの2乗損失に関する最適化問題について検討する。
リッチ対称性構造を用いて、過度パラメータ化が急激なミニマを消滅させるメカニズムを研究するための新しいツールセットを開発する。
異なる極小点における損失とヘッセンスペクトルについて鋭い解析的推定が得られ、対称性の小さい極小点をサドルに変えることができることが証明され、より対称性の小さい極小点ではより多くのニューロンが必要である。
コーシーのインターレース定理を用いて、損失関数の対称性構造から生じるある部分空間における降下方向の存在を証明する。
この解析的アプローチは、代数幾何学、表現論、対称性の破れといった分野に新しい手法を使用し、関連する損失の風景を勾配に基づく方法へアクセス可能にするために、過剰パラメータ化の有効性を厳密に確認する。
一定数のニューロンと入力に対して、スペクトル結果は標的の対称性破壊摂動の下でも真である。
関連論文リスト
- The Empirical Impact of Neural Parameter Symmetries, or Lack Thereof [50.49582712378289]
ニューラル・ネットワーク・アーキテクチャの導入により,ニューラル・パラメータ・対称性の影響について検討する。
我々は,パラメータ空間対称性を低減するために,標準的なニューラルネットワークを改良する2つの手法を開発した。
実験により,パラメータ対称性の経験的影響に関する興味深い観察がいくつか示された。
論文 参考訳(メタデータ) (2024-05-30T16:32:31Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Lie Point Symmetry and Physics Informed Networks [59.56218517113066]
本稿では、損失関数を用いて、PINNモデルが基礎となるPDEを強制しようとするのと同じように、リー点対称性をネットワークに通知するロス関数を提案する。
我々の対称性の損失は、リー群の無限小生成元がPDE解を保存することを保証する。
実験により,PDEのリー点対称性による誘導バイアスはPINNの試料効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-11-07T19:07:16Z) - Symmetry Induces Structure and Constraint of Learning [0.0]
機械学習モデルの学習行動に影響を及ぼすか、決定しないかにかかわらず、損失関数対称性の重要性を明らかにする。
ディープラーニングにおけるミラー対称性の一般的な例としては、再スケーリング、回転、置換対称性がある。
ニューラルネットワークにおける可塑性の喪失や様々な崩壊現象などの興味深い現象を理論的枠組みで説明できることを示す。
論文 参考訳(メタデータ) (2023-09-29T02:21:31Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Optimizing Mode Connectivity via Neuron Alignment [84.26606622400423]
経験的に、損失関数の局所ミニマは、損失がほぼ一定であるようなモデル空間の学習曲線で接続することができる。
本稿では,ネットワークの重み変化を考慮し,対称性がランドスケープ・コネクティビティに与える影響を明らかにするための,より一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-05T02:25:23Z) - On the Principle of Least Symmetry Breaking in Shallow ReLU Models [13.760721677322072]
対象の重みに対する対称性の中期的損失は、より広範囲な設定に適用可能であることを示す。
これを受けて、我々はこの仮説を非等方性非積分布、滑らかな活性化関数、いくつかの層を持つネットワークの異なるクラスに相関させる一連の実験を行った。
論文 参考訳(メタデータ) (2019-12-26T22:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。