論文の概要: Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.17212v2
- Date: Wed, 4 Oct 2023 14:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:47:05.629642
- Title: Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks
- Title(参考訳): 回転平衡(Rotational Equilibrium) - ニューラルネットワーク間の学習バランスの低下
- Authors: Atli Kosson, Bettina Messmer, Martin Jaggi
- Abstract要約: 回転挙動がAdamWの有効性において,L2規則化のAdamと比較して重要な役割を担っていることを示す。
また, 回転挙動がAdamWの有効性に重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 38.08431828419127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay can significantly impact the optimization dynamics of deep
neural networks. In certain situations the effects of weight decay and gradient
updates on the magnitude of a parameter vector cancel out on average, forming a
state known as equilibrium. This causes the expected rotation of the vector in
each update to remain constant along with its magnitude. Importantly,
equilibrium can arise independently for the weight vectors of different layers
and neurons. These equilibria are highly homogeneous for some optimizer and
normalization configurations, effectively balancing the average rotation--a
proxy for the effective learning rate--across network components. In this work
we explore the equilibrium states of multiple optimizers including AdamW and
SGD with momentum, providing insights into interactions between the learning
rate, weight decay, initialization, normalization and learning rate schedule.
We show how rotational equilibrium can be enforced throughout training,
eliminating the chaotic transient phase corresponding to the transition towards
equilibrium, thus simplifying the training dynamics. Finally, we show that
rotational behavior may play a key role in the effectiveness of AdamW compared
to Adam with L2-regularization, the performance of different normalization
layers, and the need for learning rate warmup.
- Abstract(参考訳): 重崩壊はディープニューラルネットワークの最適化力学に大きな影響を与える。
ある状況では、パラメータベクトルの大きさに対する重みの減衰と勾配の更新の影響は平均でキャンセルされ、平衡と呼ばれる状態を形成する。
これにより、各更新におけるベクトルの期待回転は、その大きさとともに一定となる。
重要なことに、平衡は異なる層やニューロンの重みベクトルに対して独立に生じる。
これらの平衡は最適化と正規化の構成に対して非常に均一であり、ネットワークコンポーネント間の効果的な学習率のプロキシである平均回転のバランスが効果的である。
本研究では,AdamW や SGD など複数の最適化器の運動量との平衡状態について検討し,学習速度,重量減衰,初期化,正規化,学習速度スケジュールの相互作用について考察する。
トレーニングを通して回転平衡をどのように実施するかを示し、平衡への遷移に対応するカオス的過渡相を排除し、トレーニングダイナミクスを簡素化する。
最後に,AdamWとL2正規化と異なる正規化層の性能,学習率ウォームアップの必要性を比較検討し,回転挙動がAdamWの有効性に重要な役割を果たすことを示した。
関連論文リスト
- To update or not to update? Neurons at equilibrium in deep models [8.72305226979945]
近年の深層学習の進歩は, 完全学習モデルにおけるアポテリオリ情報によって, パラメータのサブセットを単に訓練することで, 同一の性能に適合できることを示した。
本研究では、単一パラメータからニューロン全体の挙動に焦点を移し、ニューロン平衡(NEq)の概念を活用する。
提案手法は、NEqを検証し、神経平衡が特定の学習設定に依存することを観察し、様々な最先端の学習戦略とタスクで検証されている。
論文 参考訳(メタデータ) (2022-07-19T08:07:53Z) - Improving Deep Neural Network Random Initialization Through Neuronal
Rewiring [14.484787903053208]
神経強度のばらつきは低下するが, 神経強度のばらつきは低下し, 神経強度のばらつきは改善する。
次に、その強度に基づいて、優先アタッチメント(PA)ルールに従って神経細胞接続をリワイヤする新しい方法を提案する。
この意味では、PAは重みの大きさと分布を保ちながら、接続を再編成するのみである。
論文 参考訳(メタデータ) (2022-07-17T11:52:52Z) - Characterizing the Implicit Bias of Regularized SGD in Rank Minimization [9.607159748020601]
ニューラルネットワークをミニバッチSGDでトレーニングすると、重み行列のランク最小化に偏りが生じることを示す。
具体的には、このバイアスはより小さいバッチサイズ、高い学習率、あるいは体重減少の増加でより顕著であることを示す。
このバイアスと一般化の関係を実証的に研究し、一般化に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Self-organized criticality in neural networks [0.0]
本稿では,ニューラルネットワークの学習ダイナミクスが,自己組織的臨界状態に対して汎用的に惹きつけられていることを示す。
私たちの結果は、宇宙はニューラルネットワークかもしれないという主張を支持します。
論文 参考訳(メタデータ) (2021-07-07T18:00:03Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。