論文の概要: On the Principle of Least Symmetry Breaking in Shallow ReLU Models
- arxiv url: http://arxiv.org/abs/1912.11939v2
- Date: Sat, 3 Oct 2020 16:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:01:12.503348
- Title: On the Principle of Least Symmetry Breaking in Shallow ReLU Models
- Title(参考訳): 浅reluモデルにおける最小対称性の破れ原理について
- Authors: Yossi Arjevani, Michael Field
- Abstract要約: 対象の重みに対する対称性の中期的損失は、より広範囲な設定に適用可能であることを示す。
これを受けて、我々はこの仮説を非等方性非積分布、滑らかな活性化関数、いくつかの層を持つネットワークの異なるクラスに相関させる一連の実験を行った。
- 参考スコア(独自算出の注目度): 9.695960412426672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the optimization problem associated with fitting two-layer ReLU
networks with respect to the squared loss, where labels are assumed to be
generated by a target network. Focusing first on standard Gaussian inputs, we
show that the structure of spurious local minima detected by stochastic
gradient descent (SGD) is, in a well-defined sense, the \emph{least loss of
symmetry} with respect to the target weights. A closer look at the analysis
indicates that this principle of least symmetry breaking may apply to a broader
range of settings. Motivated by this, we conduct a series of experiments which
corroborate this hypothesis for different classes of non-isotropic non-product
distributions, smooth activation functions and networks with a few layers.
- Abstract(参考訳): 本研究では,2層reluネットワークを対象ネットワークで生成するラベルを仮定した2層損失に対して適合させる最適化問題を考える。
まず, 標準ガウス入力に着目し, 確率勾配降下 (sgd) によって検出されるスプリアス局所極小の構造は, 十分に定義された意味では, 対象の重みに対して, \emph{least loss of symmetry} であることを示した。
この分析をよく見ると、この最小対称性の破れの原理がより広い範囲の設定に適用できることを示している。
そこで本研究では,非等方性非生成物分布の異なるクラス,滑らかな活性化関数,いくつかの層を有するネットワークについて,この仮説を裏付ける一連の実験を行った。
関連論文リスト
- Lie Point Symmetry and Physics Informed Networks [59.56218517113066]
本稿では、損失関数を用いて、PINNモデルが基礎となるPDEを強制しようとするのと同じように、リー点対称性をネットワークに通知するロス関数を提案する。
我々の対称性の損失は、リー群の無限小生成元がPDE解を保存することを保証する。
実験により,PDEのリー点対称性による誘導バイアスはPINNの試料効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-11-07T19:07:16Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Symmetries, flat minima, and the conserved quantities of gradient flow [20.12938444246729]
パラメータ空間における連続対称性を見つけるための枠組みについて述べる。
この枠組みを非線形ニューラルネットワークに一般化するために,非線形・データ依存対称性の新たな集合を導入する。
論文 参考訳(メタデータ) (2022-10-31T10:55:30Z) - Annihilation of Spurious Minima in Two-Layer ReLU Networks [9.695960412426672]
正方形損失に対する2層ReLUニューラルネットワークの適合に関する最適化問題について検討する。
ニューロンを追加することで、対称的な刺激性のミニマをサドルに変えることができる。
また、損失関数の対称性構造から生じるある種の部分空間における降下方向の存在を証明した。
論文 参考訳(メタデータ) (2022-10-12T11:04:21Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Sharp asymptotics on the compression of two-layer neural networks [19.683271092724937]
我々は,Nノードを対象とする2層ニューラルネットワークを,Mノードを対象とする圧縮ネットワークに圧縮することを検討した。
最適最適化問題はEqui Tight Frame(ETF)の重み付けによって達成されると推測する。
論文 参考訳(メタデータ) (2022-05-17T09:45:23Z) - Deep Networks on Toroids: Removing Symmetries Reveals the Structure of
Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。
最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。
また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文 参考訳(メタデータ) (2022-02-07T09:57:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。