論文の概要: Rotational Optimizers: Simple & Robust DNN Training
- arxiv url: http://arxiv.org/abs/2305.17212v1
- Date: Fri, 26 May 2023 19:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:12:38.040466
- Title: Rotational Optimizers: Simple & Robust DNN Training
- Title(参考訳): 回転最適化:シンプルでロバストなDNNトレーニング
- Authors: Atli Kosson, Bettina Messmer, Martin Jaggi
- Abstract要約: 回転変分は, トレーニング中の平衡値に一致させるために, 期待される角の更新サイズを強制することを示す。
これにより、平衡への収束に対応する過渡位相を除去することで、トレーニングダイナミクスを単純化する。
回転は学習率のウォームアップの必要性を減らし、正規化の不十分なネットワークの最適化を改善する。
- 参考スコア(独自算出の注目度): 48.25947330868532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training dynamics of modern deep neural networks depend on complex
interactions between the learning rate, weight decay, initialization, and other
hyperparameters. These interactions can give rise to Spherical Motion Dynamics
in scale-invariant layers (e.g., normalized layers), which converge to an
equilibrium state, where the weight norm and the expected rotational update
size are fixed. Our analysis of this equilibrium in AdamW, SGD with momentum,
and Lion provides new insights into the effects of different hyperparameters
and their interactions on the training process. We propose rotational variants
(RVs) of these optimizers that force the expected angular update size to match
the equilibrium value throughout training. This simplifies the training
dynamics by removing the transient phase corresponding to the convergence to an
equilibrium. Our rotational optimizers can match the performance of the
original variants, often with minimal or no tuning of the baseline
hyperparameters, showing that these transient phases are not needed.
Furthermore, we find that the rotational optimizers have a reduced need for
learning rate warmup and improve the optimization of poorly normalized
networks.
- Abstract(参考訳): 現代のディープニューラルネットワークのトレーニングダイナミクスは、学習率、重量減少、初期化、その他のハイパーパラメータ間の複雑な相互作用に依存する。
これらの相互作用はスケール不変な層(例えば正規化層)における球面運動ダイナミクスを生じさせ、重みのノルムと期待される回転の更新サイズが固定された平衡状態へと収束する。
adamw, sgd, lionにおけるこの平衡の解析は, 異なるハイパーパラメータとそれらの相互作用がトレーニングプロセスに与える影響について新たな知見を与える。
本稿では,これらの最適化器の回転変種 (RV) を提案する。
これにより、平衡への収束に対応する過渡位相を除去することで、トレーニングダイナミクスを単純化する。
我々の回転オプティマイザは、しばしばベースラインのハイパーパラメータの最小あるいは不要なチューニングで、元の変分の性能と一致し、これらの過渡位相は不要であることを示す。
さらに、回転オプティマイザは、学習率ウォームアップの必要性を低減し、低正規化ネットワークの最適化を改善する。
関連論文リスト
- To update or not to update? Neurons at equilibrium in deep models [8.72305226979945]
近年の深層学習の進歩は, 完全学習モデルにおけるアポテリオリ情報によって, パラメータのサブセットを単に訓練することで, 同一の性能に適合できることを示した。
本研究では、単一パラメータからニューロン全体の挙動に焦点を移し、ニューロン平衡(NEq)の概念を活用する。
提案手法は、NEqを検証し、神経平衡が特定の学習設定に依存することを観察し、様々な最先端の学習戦略とタスクで検証されている。
論文 参考訳(メタデータ) (2022-07-19T08:07:53Z) - Improving Deep Neural Network Random Initialization Through Neuronal
Rewiring [14.484787903053208]
神経強度のばらつきは低下するが, 神経強度のばらつきは低下し, 神経強度のばらつきは改善する。
次に、その強度に基づいて、優先アタッチメント(PA)ルールに従って神経細胞接続をリワイヤする新しい方法を提案する。
この意味では、PAは重みの大きさと分布を保ちながら、接続を再編成するのみである。
論文 参考訳(メタデータ) (2022-07-17T11:52:52Z) - SGD and Weight Decay Secretly Minimize the Rank of Your Neural Network [8.79431718760617]
ミニバッチSGDとウェイト崩壊によるトレーニングは、ウェイト行列のランク最小化へのバイアスを引き起こす。
このバイアスは、より小さなバッチサイズ、より高い学習率、より強いウェイト崩壊によってより顕著になる。
このバイアスと一般化の関係を実証的に検討し、テスト性能に限界効果があることを見出した。
論文 参考訳(メタデータ) (2022-06-12T17:06:35Z) - Minimizing Control for Credit Assignment with Strong Feedback [65.59995261310529]
ディープニューラルネットワークにおける勾配に基づくクレジット割り当ての現在の手法は、無限小のフィードバック信号を必要とする。
我々は、神経活動に対する強いフィードバックと勾配に基づく学習を組み合わせることで、ニューラルネットワークの最適化に関する新たな視点を自然に導き出すことを示す。
DFCにおける強いフィードバックを用いることで、空間と時間において完全に局所的な学習規則を用いることで、前向きとフィードバックの接続を同時に学習できることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:06:21Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Self-organized criticality in neural networks [0.0]
本稿では,ニューラルネットワークの学習ダイナミクスが,自己組織的臨界状態に対して汎用的に惹きつけられていることを示す。
私たちの結果は、宇宙はニューラルネットワークかもしれないという主張を支持します。
論文 参考訳(メタデータ) (2021-07-07T18:00:03Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。