論文の概要: Noise Stability Optimization for Flat Minima with Optimal Convergence
Rates
- arxiv url: http://arxiv.org/abs/2306.08553v1
- Date: Wed, 14 Jun 2023 14:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:39:07.363480
- Title: Noise Stability Optimization for Flat Minima with Optimal Convergence
Rates
- Title(参考訳): 最適収束率を有するフラットミニマの雑音安定性最適化
- Authors: Haotian Ju, Dongyue Li, and Hongyang R. Zhang
- Abstract要約: 本稿では,最小化のために$mathcalP$の対称性を活用しながら,勾配の計算前にSGDのようなランダムノイズを考察する。
我々は,様々なアーキテクチャを用いた画像分類タスクに対して,そのアルゴリズムを実証的に検証する。
- 参考スコア(独自算出の注目度): 3.94920914298413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider finding flat, local minimizers by adding average weight
perturbations. Given a nonconvex function $f: \mathbb{R}^d \rightarrow
\mathbb{R}$ and a $d$-dimensional distribution $\mathcal{P}$ which is symmetric
at zero, we perturb the weight of $f$ and define $F(W) = \mathbb{E}[f({W +
U})]$, where $U$ is a random sample from $\mathcal{P}$. This injection induces
regularization through the Hessian trace of $f$ for small, isotropic Gaussian
perturbations. Thus, the weight-perturbed function biases to minimizers with
low Hessian trace. Several prior works have studied settings related to this
weight-perturbed function by designing algorithms to improve generalization.
Still, convergence rates are not known for finding minima under the average
perturbations of the function $F$. This paper considers an SGD-like algorithm
that injects random noise before computing gradients while leveraging the
symmetry of $\mathcal{P}$ to reduce variance. We then provide a rigorous
analysis, showing matching upper and lower bounds of our algorithm for finding
an approximate first-order stationary point of $F$ when the gradient of $f$ is
Lipschitz-continuous. We empirically validate our algorithm for several image
classification tasks with various architectures. Compared to sharpness-aware
minimization, we note a 12.6% and 7.8% drop in the Hessian trace and top
eigenvalue of the found minima, respectively, averaged over eight datasets.
Ablation studies validate the benefit of the design of our algorithm.
- Abstract(参考訳): 平均重量摂動を加えて平坦で局所的な最小値を求める。
非凸関数 $f: \mathbb{r}^d \rightarrow \mathbb{r}$ と $d$-次元分布 $\mathcal{p}$ が 0 で対称であるとき、f(w) = \mathbb{e}[f({w + u})]$ を摂動して $f(w) = \mathbb{e}[f({w + u})]$ と定義する。
このインジェクションは、小さな等方性ガウス摂動に対してヘッセントレースf$を介して正規化を誘導する。
したがって、重みの摂動関数は、低ヘッシアントレースを持つ最小化子に偏りを与える。
いくつかの先行研究は、一般化を改善するアルゴリズムを設計することによって、この重み摂動関数に関連する設定を研究した。
それでも収束率は、関数$F$の平均摂動の下でミニマを見つけることは知られていない。
本稿では,分散を低減するために$\mathcal{P}$の対称性を活用しながら,勾配の計算前にランダムノイズを注入するSGDライクなアルゴリズムについて考察する。
次に、厳密な解析を行い、f$の勾配がリプシッツ連続であるとき、近似した1次定常点を求めるアルゴリズムの上と下の境界が一致することを示す。
我々は,様々なアーキテクチャを用いた画像分類タスクに対して,そのアルゴリズムを実証的に検証する。
シャープネス・アウェアの最小化と比較すると、hessian traceの12.6%と7.8%の低下と、発見されたminimaの最高固有値が8つのデータセットの平均値であることがわかった。
アブレーション研究はアルゴリズムの設計の利点を検証する。
関連論文リスト
- Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。
非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文 参考訳(メタデータ) (2024-09-06T00:34:44Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees [20.2407347618552]
オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。
本稿では,クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
論文 参考訳(メタデータ) (2022-06-06T14:52:46Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。