論文の概要: Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks
- arxiv url: http://arxiv.org/abs/2305.17212v3
- Date: Wed, 21 Feb 2024 18:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:21:57.018229
- Title: Rotational Equilibrium: How Weight Decay Balances Learning Across Neural
Networks
- Title(参考訳): 回転平衡(Rotational Equilibrium) - ニューラルネットワーク間の学習バランスの低下
- Authors: Atli Kosson, Bettina Messmer, Martin Jaggi
- Abstract要約: 本研究は,ディープニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討する。
本研究では, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習率のウォームアップを著しく低減できることを示した。
- 参考スコア(独自算出の注目度): 38.08431828419127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates how weight decay affects the update behavior of
individual neurons in deep neural networks through a combination of applied
analysis and experimentation. Weight decay can cause the expected magnitude and
angular updates of a neuron's weight vector to converge to a steady state we
call rotational equilibrium. These states can be highly homogeneous,
effectively balancing the average rotation -- a proxy for the effective
learning rate -- across different layers and neurons. Our work analyzes these
dynamics across optimizers like Adam, Lion, and SGD with momentum, offering a
new simple perspective on training that elucidates the efficacy of widely used
but poorly understood methods in deep learning. We demonstrate how balanced
rotation plays a key role in the effectiveness of normalization like Weight
Standardization, as well as that of AdamW over Adam with L2-regularization.
Finally, we show that explicitly controlling the rotation provides the benefits
of weight decay while substantially reducing the need for learning rate warmup.
- Abstract(参考訳): 本研究では, 応用解析と実験を組み合わせることで, 深部ニューラルネットワークにおける個々のニューロンの更新挙動に重み劣化が及ぼす影響について検討した。
軽量崩壊は、ニューロンの重みベクトルの期待される大きさと角の更新を、回転平衡と呼ばれる定常状態に収束させる。
これらの状態は高度に均一であり、異なる層やニューロン間で平均回転(効果的な学習速度のプロキシ)を効果的にバランスさせることができる。
私たちの研究は、adam、lion、sgdといったオプティマイザ間のダイナミクスを勢いで分析し、ディープラーニングにおける広く使われているが理解できない方法の有効性を解明する、トレーニングに関する新たなシンプルな視点を提供します。
本稿では,L2-正則化を施したAdamWとAdamWの両法則化の有効性において,バランスの取れた回転が重要な役割を担っていることを示す。
最後に, 回転を明示的に制御することで, 重量減衰の利点が得られ, 学習速度のウォームアップを著しく低減できることを示した。
関連論文リスト
- To update or not to update? Neurons at equilibrium in deep models [8.72305226979945]
近年の深層学習の進歩は, 完全学習モデルにおけるアポテリオリ情報によって, パラメータのサブセットを単に訓練することで, 同一の性能に適合できることを示した。
本研究では、単一パラメータからニューロン全体の挙動に焦点を移し、ニューロン平衡(NEq)の概念を活用する。
提案手法は、NEqを検証し、神経平衡が特定の学習設定に依存することを観察し、様々な最先端の学習戦略とタスクで検証されている。
論文 参考訳(メタデータ) (2022-07-19T08:07:53Z) - Improving Deep Neural Network Random Initialization Through Neuronal
Rewiring [14.484787903053208]
神経強度のばらつきは低下するが, 神経強度のばらつきは低下し, 神経強度のばらつきは改善する。
次に、その強度に基づいて、優先アタッチメント(PA)ルールに従って神経細胞接続をリワイヤする新しい方法を提案する。
この意味では、PAは重みの大きさと分布を保ちながら、接続を再編成するのみである。
論文 参考訳(メタデータ) (2022-07-17T11:52:52Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Self-organized criticality in neural networks [0.0]
本稿では,ニューラルネットワークの学習ダイナミクスが,自己組織的臨界状態に対して汎用的に惹きつけられていることを示す。
私たちの結果は、宇宙はニューラルネットワークかもしれないという主張を支持します。
論文 参考訳(メタデータ) (2021-07-07T18:00:03Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。