論文の概要: SANE: The phases of gradient descent through Sharpness Adjusted Number
of Effective parameters
- arxiv url: http://arxiv.org/abs/2305.18490v1
- Date: Mon, 29 May 2023 13:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:14:23.970001
- Title: SANE: The phases of gradient descent through Sharpness Adjusted Number
of Effective parameters
- Title(参考訳): SANE: シャープネス調整された有効パラメータ数による勾配降下の位相
- Authors: Lawrence Wang, Stephen J. Roberts
- Abstract要約: ネットワークトレーニング中にヘッセン行列を考える。
シャープネス調整された有効パラメータ(SANE)は、大きな学習率に対して堅牢であることを示す。
我々は、大きな学習率で「ロス盆地」にまたがるエビデンスとヘッセンシフトを提示する。
- 参考スコア(独自算出の注目度): 19.062678788410434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks are undeniably successful. Numerous studies have
investigated how the curvature of loss landscapes can affect the quality of
solutions. In this work we consider the Hessian matrix during network training.
We reiterate the connection between the number of "well-determined" or
"effective" parameters and the generalisation performance of neural nets, and
we demonstrate its use as a tool for model comparison. By considering the local
curvature, we propose Sharpness Adjusted Number of Effective parameters (SANE),
a measure of effective dimensionality for the quality of solutions. We show
that SANE is robust to large learning rates, which represent learning regimes
that are attractive but (in)famously unstable. We provide evidence and
characterise the Hessian shifts across "loss basins" at large learning rates.
Finally, extending our analysis to deeper neural networks, we provide an
approximation to the full-network Hessian, exploiting the natural ordering of
neural weights, and use this approximation to provide extensive empirical
evidence for our claims.
- Abstract(参考訳): 現代のニューラルネットワークは間違いなく成功している。
多くの研究が、損失景観の曲率が溶液の質に与える影響について研究している。
本稿では,ネットワークトレーニングにおけるヘッセン行列について考察する。
我々は,「よく決定された」パラメータと「効果的」パラメータとニューラルネットワークの一般化性能との関係を再確認し,モデル比較ツールとしての利用を実証する。
局所曲率を考慮し,解の質に対する有効次元の尺度であるシャープネス調整実効パラメータ数(sane)を提案する。
SANEは,魅力的だが(不安定な)学習体制を表現し,大きな学習率に対して堅牢であることを示す。
我々は、大きな学習率で「ロス盆地」にまたがるヘッセンシフトを証明し特徴付ける。
最後に、解析をより深いニューラルネットワークに拡張することで、全ネットワークのヘッセンに近似し、神経重みの自然な順序を活用し、この近似を用いて我々の主張に対する広範な実証的証拠を提供する。
関連論文リスト
- Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning [77.82908213345864]
学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。
ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Can pruning improve certified robustness of neural networks? [106.03070538582222]
ニューラルネット・プルーニングはディープ・ニューラル・ネットワーク(NN)の実証的ロバスト性を向上させることができることを示す。
実験の結果,NNを適切に刈り取ることで,その精度を8.2%まで向上させることができることがわかった。
さらに,認証された宝くじの存在が,従来の密集モデルの標準および認証された堅牢な精度に一致することを観察する。
論文 参考訳(メタデータ) (2022-06-15T05:48:51Z) - Pruning in the Face of Adversaries [0.0]
ニューラルネットワークのプルーニングがL-0,L-2,L-infinity攻撃に対する対向的ロバスト性に及ぼす影響を評価する。
その結果,ニューラルネットワークのプルーニングと対向ロバスト性は相互に排他的ではないことが確認された。
分析を敵のシナリオに付加的な仮定を取り入れた状況にまで拡張し、状況によって異なる戦略が最適であることを示す。
論文 参考訳(メタデータ) (2021-08-19T09:06:16Z) - Spline parameterization of neural network controls for deep learning [0.0]
我々は、ニューラルネットワークの訓練可能なパラメータである係数の固定数のBスプライン基底関数を選択する。
スプラインベースのニューラルネットワークがハイパーパラメータに対する学習問題の堅牢性を高めることを数値的に示す。
論文 参考訳(メタデータ) (2021-02-27T19:35:45Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。