論文の概要: Spherical Perspective on Learning with Normalization Layers
- arxiv url: http://arxiv.org/abs/2006.13382v3
- Date: Thu, 19 May 2022 13:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:15:18.779714
- Title: Spherical Perspective on Learning with Normalization Layers
- Title(参考訳): 正規化層による学習の球面的視点
- Authors: Simon Roburin, Yann de Mont-Marin, Andrei Bursuc, Renaud Marlet,
Patrick P\'erez, Mathieu Aubry
- Abstract要約: 正規化層(NL)は現代のディープラーニングアーキテクチャで広く使われている。
本稿では,NLを用いたニューラルネットワークの最適化を幾何学的観点から研究するための球面フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.10737477667422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization Layers (NLs) are widely used in modern deep-learning
architectures. Despite their apparent simplicity, their effect on optimization
is not yet fully understood. This paper introduces a spherical framework to
study the optimization of neural networks with NLs from a geometric
perspective. Concretely, the radial invariance of groups of parameters, such as
filters for convolutional neural networks, allows to translate the optimization
steps on the $L_2$ unit hypersphere. This formulation and the associated
geometric interpretation shed new light on the training dynamics. Firstly, the
first effective learning rate expression of Adam is derived. Then the
demonstration that, in the presence of NLs, performing Stochastic Gradient
Descent (SGD) alone is actually equivalent to a variant of Adam constrained to
the unit hypersphere, stems from the framework. Finally, this analysis outlines
phenomena that previous variants of Adam act on and their importance in the
optimization process are experimentally validated.
- Abstract(参考訳): 正規化層(NL)は現代のディープラーニングアーキテクチャで広く使われている。
明らかな単純さにもかかわらず、最適化に対する効果はまだ完全には理解されていない。
本稿では,NLを用いたニューラルネットワークの最適化を幾何学的観点から研究するための球面フレームワークを提案する。
具体的には、畳み込みニューラルネットワークのフィルタのようなパラメータのグループのラジアル不変性により、$l_2$単位超球上の最適化ステップを変換できる。
この定式化と関連する幾何学的解釈は、トレーニングダイナミクスに新しい光を当てた。
まず、アダムの最初の効果的な学習率表現を導出する。
そして、NLが存在する場合、SGD(Stochastic Gradient Descent)を単独で実行するという実演は、実際には、単位超球面に制約されたアダムの変種と等価である。
最後に,従来のadamの変種が作用する現象を概説し,最適化プロセスにおけるその重要性を実験的に検証する。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - How Does Adaptive Optimization Impact Local Neural Network Geometry? [32.32593743852949]
ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分である、と我々は主張する。
我々は、アダムのような適応的な手法が、より高速な収束を期待できる領域への軌道に偏っていることを示す。
論文 参考訳(メタデータ) (2022-11-04T04:05:57Z) - Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes [3.808063547958558]
本研究では、固定ELRを用いて、球面上でのスケール不変ニューラルネットワークのトレーニング特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
論文 参考訳(メタデータ) (2022-09-08T10:30:05Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Training Sparse Neural Network by Constraining Synaptic Weight on Unit
Lp Sphere [2.429910016019183]
単位 Lp-球面上のシナプス重みを制約することにより、p で空間を柔軟に制御することができる。
このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。
論文 参考訳(メタデータ) (2021-03-30T01:02:31Z) - Improving the Backpropagation Algorithm with Consequentialism Weight
Updates over Mini-Batches [0.40611352512781856]
適応フィルタのスタックとして多層ニューラルネットワークを考えることが可能であることを示す。
我々は,BPで発生した行動の悪影響を予測し,その発生前にも予測し,よりよいアルゴリズムを導入する。
我々の実験は、ディープニューラルネットワークのトレーニングにおけるアルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2020-03-11T08:45:36Z) - Layer-wise Conditioning Analysis in Exploring the Learning Dynamics of
DNNs [115.35745188028169]
条件付け解析を深層ニューラルネットワーク(DNN)に拡張し,その学習力学を解明する。
バッチ正規化(BN)はトレーニングを安定させるが、時には局所的な最小値の誤った印象を与える。
我々はBNが最適化問題の階層的条件付けを改善することを実験的に観察した。
論文 参考訳(メタデータ) (2020-02-25T11:40:27Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。