論文の概要: Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes
- arxiv url: http://arxiv.org/abs/2209.03695v1
- Date: Thu, 8 Sep 2022 10:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:45:29.430346
- Title: Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes
- Title(参考訳): 球面上のスケール不変ニューラルネットワークの学習は3つのレジームで起こりうる
- Authors: Maxim Kodryan, Ekaterina Lobacheva, Maksim Nakhodnov, Dmitry Vetrov
- Abstract要約: 本研究では、固定ELRを用いて、球面上でのスケール不変ニューラルネットワークのトレーニング特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
- 参考スコア(独自算出の注目度): 3.808063547958558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental property of deep learning normalization techniques, such as
batch normalization, is making the pre-normalization parameters scale
invariant. The intrinsic domain of such parameters is the unit sphere, and
therefore their gradient optimization dynamics can be represented via spherical
optimization with varying effective learning rate (ELR), which was studied
previously. In this work, we investigate the properties of training
scale-invariant neural networks directly on the sphere using a fixed ELR. We
discover three regimes of such training depending on the ELR value:
convergence, chaotic equilibrium, and divergence. We study these regimes in
detail both on a theoretical examination of a toy example and on a thorough
empirical analysis of real scale-invariant deep learning models. Each regime
has unique features and reflects specific properties of the intrinsic loss
landscape, some of which have strong parallels with previous research on both
regular and scale-invariant neural networks training. Finally, we demonstrate
how the discovered regimes are reflected in conventional training of normalized
networks and how they can be leveraged to achieve better optima.
- Abstract(参考訳): バッチ正規化のようなディープラーニング正規化技法の基本的な特性は、プレ正規化パラメータを不変にすることである。
このようなパラメータの本質的な領域は単位球であり、従ってそれらの勾配最適化のダイナミクスは、以前に研究された様々な有効学習率 (ELR) で球面最適化によって表現することができる。
本研究では,固定型elrを用いて,球面上で直接学習するスケール不変ニューラルネットワークの特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
本研究では,おもちゃの例を理論的に検証し,実スケール不変深層学習モデルの徹底的な実験的検討を行った。
各レジームは独自の特徴を持ち、本質的損失景観の特定の特性を反映している。
最後に, 従来の正規化ネットワークのトレーニングにおいて, 発見されたレジームがどのように反映され, より優れた最適化を実現するためにどのように活用できるかを示す。
関連論文リスト
- Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Neural Characteristic Activation Value Analysis for Improved ReLU
Network Feature Learning [2.6832500767373735]
本研究では、ニューラルネットワークにおける個々のReLUユニットの特性活性化値について検討する。
本稿では、そのような特性活性化値に対応する入力位置の集合を、ReLUユニットの特性活性化セットとして参照する。
論文 参考訳(メタデータ) (2023-05-25T10:19:13Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Equivariance and generalization in neural networks [0.0]
ネットワーク特性間の翻訳的等式を組み込んだ結果に焦点をあてる。
等変ネットワークの利点は、複素スカラー場の理論を研究することによって実証される。
ほとんどのタスクにおいて、最良の同変アーキテクチャは、非同変アーキテクチャよりもはるかに優れた性能と一般化を達成できる。
論文 参考訳(メタデータ) (2021-12-23T12:38:32Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Spherical Perspective on Learning with Normalization Layers [28.10737477667422]
正規化層(NL)は現代のディープラーニングアーキテクチャで広く使われている。
本稿では,NLを用いたニューラルネットワークの最適化を幾何学的観点から研究するための球面フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T23:29:51Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - Incorporating Symmetry into Deep Dynamics Models for Improved
Generalization [24.363954435050264]
本稿では,畳み込みニューラルネットワークに対称性を組み込むことにより,精度の向上と一般化を提案する。
我々のモデルは、対称性群変換による分布シフトに対して理論的かつ実験的に堅牢である。
画像やテキストアプリケーションと比較して、我々の研究は、高次元システムに同変ニューラルネットワークを適用するための重要なステップである。
論文 参考訳(メタデータ) (2020-02-08T01:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。