論文の概要: Noise Stability Optimization for Flat Minima with Tight Rates
- arxiv url: http://arxiv.org/abs/2306.08553v3
- Date: Thu, 18 Apr 2024 23:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:36:15.276020
- Title: Noise Stability Optimization for Flat Minima with Tight Rates
- Title(参考訳): 軽量平板ミニマの騒音安定性の最適化
- Authors: Haotian Ju, Dongyue Li, Hongyang R. Zhang,
- Abstract要約: 関数 $F(W) = mathbbE_U[f(W + U)]$ を最小化する方法を示す。
私たちは、U$と$-U$の両方にノイズを加えるシンプルな実用的なアルゴリズムを設計します。
- 参考スコア(独自算出の注目度): 18.009376840944284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider minimizing a perturbed function $F(W) = \mathbb{E}_{U}[f(W + U)]$, given a function $f: \mathbb{R}^d \rightarrow \mathbb{R}$ and a random sample $U$ from a distribution $\mathcal{P}$ with mean zero. When $\mathcal{P}$ is the isotropic Gaussian, $F(W)$ is roughly equal to $f(W)$ plus a penalty on the trace of $\nabla^2 f(W)$, scaled by the variance of $\mathcal{P}$. This penalty on the Hessian has the benefit of improving generalization, through PAC-Bayes analysis. It is useful in low-sample regimes, for instance, when a (large) pre-trained model is fine-tuned on a small data set. One way to minimize $F$ is by adding $U$ to $W$, and then run SGD. We observe, empirically, that this noise injection does not provide significant gains over SGD, in our experiments of conducting fine-tuning on three image classification data sets. We design a simple, practical algorithm that adds noise along both $U$ and $-U$, with the option of adding several perturbations and taking their average. We analyze the convergence of this algorithm, showing tight rates on the norm of the output's gradient. We provide a comprehensive empirical analysis of our algorithm, by first showing that in an over-parameterized matrix sensing problem, it can find solutions with lower test loss than naive noise injection. Then, we compare our algorithm with four sharpness-reducing training methods (such as the Sharpness-Aware Minimization (Foret et al., 2021)). We find that our algorithm can outperform them by up to 1.8% test accuracy, for fine-tuning ResNet on six image classification data sets. It leads to a 17.7% (and 12.8%) reduction in the trace (and largest eigenvalue) of the Hessian matrix of the loss surface. This form of regularization on the Hessian is compatible with $\ell_2$ weight decay (and data augmentation), in the sense that combining both can lead to improved empirical performance.
- Abstract(参考訳): 摂動関数 $F(W) = \mathbb{E}_{U}[f(W + U)]$, 関数 $f: \mathbb{R}^d \rightarrow \mathbb{R}$, 分布 $\mathcal{P}$ からランダムサンプル $U$ を平均零とする。
$\mathcal{P}$ が等方ガウスであるとき、$F(W)$ は $f(W)$ と略同値であり、$\mathcal{P}$ の分散によってスケールされた $\nabla^2 f(W)$ のトレース上のペナルティである。
ヘッセン族に対するこの罰は、PAC-Bayes分析を通じて一般化を改善する利点がある。
例えば、(より大きな)事前訓練されたモデルが小さなデータセット上で微調整された場合、これは低サンプルのレギュレーションで有用である。
F$を最小化する方法の1つは、$U$を$W$に追加し、SGDを実行することである。
我々は、3つの画像分類データセットの微調整を行う実験において、このノイズ注入がSGDに対して大きな効果をもたらすことはないことを実証的に観察した。
我々は、U$と$-U$の両方にノイズを付加するシンプルな実用的なアルゴリズムを設計し、いくつかの摂動を加えて平均値を取ることができる。
このアルゴリズムの収束を解析し、出力の勾配のノルムに厳密な速度を示す。
まず, 過度パラメータ化行列検出問題において, ノイズ注入よりも低損失の解を求めることができることを示す。
そして,本アルゴリズムを,シャープネス・アウェア最小化(Foret et al ,2021)のような4つのシャープネス低減学習手法と比較した。
このアルゴリズムは,6つの画像分類データセット上でResNetを微調整することにより,最大1.8%の精度で性能を向上できることがわかった。
損失面のヘッセン行列のトレース(および最大の固有値)が17.7%(および12.8%)減少する。
この Hessian 上の正規化形式は $\ell_2$ weight decay (およびデータ拡張) と互換性があり、両者を組み合わせることで経験的性能が向上する。
関連論文リスト
- Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。
非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文 参考訳(メタデータ) (2024-09-06T00:34:44Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees [20.2407347618552]
オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。
本稿では,クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
論文 参考訳(メタデータ) (2022-06-06T14:52:46Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。