論文の概要: Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.17212v2
- Date: Wed, 4 Oct 2023 14:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:47:05.629642
- Title: Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks
- Title(参考訳): 回転平衡(Rotational Equilibrium) - ニューラルネットワーク間の学習バランスの低下
- Authors: Atli Kosson, Bettina Messmer, Martin Jaggi
- Abstract要約: 回転挙動がAdamWの有効性において,L2規則化のAdamと比較して重要な役割を担っていることを示す。
また, 回転挙動がAdamWの有効性に重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 38.08431828419127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight decay can significantly impact the optimization dynamics of deep
neural networks. In certain situations the effects of weight decay and gradient
updates on the magnitude of a parameter vector cancel out on average, forming a
state known as equilibrium. This causes the expected rotation of the vector in
each update to remain constant along with its magnitude. Importantly,
equilibrium can arise independently for the weight vectors of different layers
and neurons. These equilibria are highly homogeneous for some optimizer and
normalization configurations, effectively balancing the average rotation--a
proxy for the effective learning rate--across network components. In this work
we explore the equilibrium states of multiple optimizers including AdamW and
SGD with momentum, providing insights into interactions between the learning
rate, weight decay, initialization, normalization and learning rate schedule.
We show how rotational equilibrium can be enforced throughout training,
eliminating the chaotic transient phase corresponding to the transition towards
equilibrium, thus simplifying the training dynamics. Finally, we show that
rotational behavior may play a key role in the effectiveness of AdamW compared
to Adam with L2-regularization, the performance of different normalization
layers, and the need for learning rate warmup.
- Abstract(参考訳): 重崩壊はディープニューラルネットワークの最適化力学に大きな影響を与える。
ある状況では、パラメータベクトルの大きさに対する重みの減衰と勾配の更新の影響は平均でキャンセルされ、平衡と呼ばれる状態を形成する。
これにより、各更新におけるベクトルの期待回転は、その大きさとともに一定となる。
重要なことに、平衡は異なる層やニューロンの重みベクトルに対して独立に生じる。
これらの平衡は最適化と正規化の構成に対して非常に均一であり、ネットワークコンポーネント間の効果的な学習率のプロキシである平均回転のバランスが効果的である。
本研究では,AdamW や SGD など複数の最適化器の運動量との平衡状態について検討し,学習速度,重量減衰,初期化,正規化,学習速度スケジュールの相互作用について考察する。
トレーニングを通して回転平衡をどのように実施するかを示し、平衡への遷移に対応するカオス的過渡相を排除し、トレーニングダイナミクスを簡素化する。
最後に,AdamWとL2正規化と異なる正規化層の性能,学習率ウォームアップの必要性を比較検討し,回転挙動がAdamWの有効性に重要な役割を果たすことを示した。
関連論文リスト
- To update or not to update? Neurons at equilibrium in deep models [8.72305226979945]
近年の深層学習の進歩は, 完全学習モデルにおけるアポテリオリ情報によって, パラメータのサブセットを単に訓練することで, 同一の性能に適合できることを示した。
本研究では、単一パラメータからニューロン全体の挙動に焦点を移し、ニューロン平衡(NEq)の概念を活用する。
提案手法は、NEqを検証し、神経平衡が特定の学習設定に依存することを観察し、様々な最先端の学習戦略とタスクで検証されている。
論文 参考訳(メタデータ) (2022-07-19T08:07:53Z) - Improving Deep Neural Network Random Initialization Through Neuronal
Rewiring [14.484787903053208]
神経強度のばらつきは低下するが, 神経強度のばらつきは低下し, 神経強度のばらつきは改善する。
次に、その強度に基づいて、優先アタッチメント(PA)ルールに従って神経細胞接続をリワイヤする新しい方法を提案する。
この意味では、PAは重みの大きさと分布を保ちながら、接続を再編成するのみである。
論文 参考訳(メタデータ) (2022-07-17T11:52:52Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Self-organized criticality in neural networks [0.0]
本稿では,ニューラルネットワークの学習ダイナミクスが,自己組織的臨界状態に対して汎用的に惹きつけられていることを示す。
私たちの結果は、宇宙はニューラルネットワークかもしれないという主張を支持します。
論文 参考訳(メタデータ) (2021-07-07T18:00:03Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。