論文の概要: Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes
- arxiv url: http://arxiv.org/abs/2209.03695v1
- Date: Thu, 8 Sep 2022 10:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:45:29.430346
- Title: Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes
- Title(参考訳): 球面上のスケール不変ニューラルネットワークの学習は3つのレジームで起こりうる
- Authors: Maxim Kodryan, Ekaterina Lobacheva, Maksim Nakhodnov, Dmitry Vetrov
- Abstract要約: 本研究では、固定ELRを用いて、球面上でのスケール不変ニューラルネットワークのトレーニング特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
- 参考スコア(独自算出の注目度): 3.808063547958558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental property of deep learning normalization techniques, such as
batch normalization, is making the pre-normalization parameters scale
invariant. The intrinsic domain of such parameters is the unit sphere, and
therefore their gradient optimization dynamics can be represented via spherical
optimization with varying effective learning rate (ELR), which was studied
previously. In this work, we investigate the properties of training
scale-invariant neural networks directly on the sphere using a fixed ELR. We
discover three regimes of such training depending on the ELR value:
convergence, chaotic equilibrium, and divergence. We study these regimes in
detail both on a theoretical examination of a toy example and on a thorough
empirical analysis of real scale-invariant deep learning models. Each regime
has unique features and reflects specific properties of the intrinsic loss
landscape, some of which have strong parallels with previous research on both
regular and scale-invariant neural networks training. Finally, we demonstrate
how the discovered regimes are reflected in conventional training of normalized
networks and how they can be leveraged to achieve better optima.
- Abstract(参考訳): バッチ正規化のようなディープラーニング正規化技法の基本的な特性は、プレ正規化パラメータを不変にすることである。
このようなパラメータの本質的な領域は単位球であり、従ってそれらの勾配最適化のダイナミクスは、以前に研究された様々な有効学習率 (ELR) で球面最適化によって表現することができる。
本研究では,固定型elrを用いて,球面上で直接学習するスケール不変ニューラルネットワークの特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
本研究では,おもちゃの例を理論的に検証し,実スケール不変深層学習モデルの徹底的な実験的検討を行った。
各レジームは独自の特徴を持ち、本質的損失景観の特定の特性を反映している。
最後に, 従来の正規化ネットワークのトレーニングにおいて, 発見されたレジームがどのように反映され, より優れた最適化を実現するためにどのように活用できるかを示す。
関連論文リスト
- Investigating generalization capabilities of neural networks by means of loss landscapes and Hessian analysis [0.0]
本稿では,新たに改良されたPyTorchライブラリLoss Landscape Analysis(LLA)を用いたニューラルネットワーク(NN)の一般化機能について検討する。
LLAは、NN Hessianの特性とともに、損失景観の可視化と解析を容易にする。
論文 参考訳(メタデータ) (2024-12-13T14:02:41Z) - Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。
我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。
本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文 参考訳(メタデータ) (2024-05-22T17:23:15Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Spherical Perspective on Learning with Normalization Layers [28.10737477667422]
正規化層(NL)は現代のディープラーニングアーキテクチャで広く使われている。
本稿では,NLを用いたニューラルネットワークの最適化を幾何学的観点から研究するための球面フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T23:29:51Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Incorporating Symmetry into Deep Dynamics Models for Improved
Generalization [24.363954435050264]
本稿では,畳み込みニューラルネットワークに対称性を組み込むことにより,精度の向上と一般化を提案する。
我々のモデルは、対称性群変換による分布シフトに対して理論的かつ実験的に堅牢である。
画像やテキストアプリケーションと比較して、我々の研究は、高次元システムに同変ニューラルネットワークを適用するための重要なステップである。
論文 参考訳(メタデータ) (2020-02-08T01:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。