論文の概要: Noise Stability Optimization for Flat Minima with Tight Rates
- arxiv url: http://arxiv.org/abs/2306.08553v3
- Date: Thu, 18 Apr 2024 23:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:36:15.276020
- Title: Noise Stability Optimization for Flat Minima with Tight Rates
- Title(参考訳): 軽量平板ミニマの騒音安定性の最適化
- Authors: Haotian Ju, Dongyue Li, Hongyang R. Zhang,
- Abstract要約: 関数 $F(W) = mathbbE_U[f(W + U)]$ を最小化する方法を示す。
私たちは、U$と$-U$の両方にノイズを加えるシンプルな実用的なアルゴリズムを設計します。
- 参考スコア(独自算出の注目度): 18.009376840944284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider minimizing a perturbed function $F(W) = \mathbb{E}_{U}[f(W + U)]$, given a function $f: \mathbb{R}^d \rightarrow \mathbb{R}$ and a random sample $U$ from a distribution $\mathcal{P}$ with mean zero. When $\mathcal{P}$ is the isotropic Gaussian, $F(W)$ is roughly equal to $f(W)$ plus a penalty on the trace of $\nabla^2 f(W)$, scaled by the variance of $\mathcal{P}$. This penalty on the Hessian has the benefit of improving generalization, through PAC-Bayes analysis. It is useful in low-sample regimes, for instance, when a (large) pre-trained model is fine-tuned on a small data set. One way to minimize $F$ is by adding $U$ to $W$, and then run SGD. We observe, empirically, that this noise injection does not provide significant gains over SGD, in our experiments of conducting fine-tuning on three image classification data sets. We design a simple, practical algorithm that adds noise along both $U$ and $-U$, with the option of adding several perturbations and taking their average. We analyze the convergence of this algorithm, showing tight rates on the norm of the output's gradient. We provide a comprehensive empirical analysis of our algorithm, by first showing that in an over-parameterized matrix sensing problem, it can find solutions with lower test loss than naive noise injection. Then, we compare our algorithm with four sharpness-reducing training methods (such as the Sharpness-Aware Minimization (Foret et al., 2021)). We find that our algorithm can outperform them by up to 1.8% test accuracy, for fine-tuning ResNet on six image classification data sets. It leads to a 17.7% (and 12.8%) reduction in the trace (and largest eigenvalue) of the Hessian matrix of the loss surface. This form of regularization on the Hessian is compatible with $\ell_2$ weight decay (and data augmentation), in the sense that combining both can lead to improved empirical performance.
- Abstract(参考訳): 摂動関数 $F(W) = \mathbb{E}_{U}[f(W + U)]$, 関数 $f: \mathbb{R}^d \rightarrow \mathbb{R}$, 分布 $\mathcal{P}$ からランダムサンプル $U$ を平均零とする。
$\mathcal{P}$ が等方ガウスであるとき、$F(W)$ は $f(W)$ と略同値であり、$\mathcal{P}$ の分散によってスケールされた $\nabla^2 f(W)$ のトレース上のペナルティである。
ヘッセン族に対するこの罰は、PAC-Bayes分析を通じて一般化を改善する利点がある。
例えば、(より大きな)事前訓練されたモデルが小さなデータセット上で微調整された場合、これは低サンプルのレギュレーションで有用である。
F$を最小化する方法の1つは、$U$を$W$に追加し、SGDを実行することである。
我々は、3つの画像分類データセットの微調整を行う実験において、このノイズ注入がSGDに対して大きな効果をもたらすことはないことを実証的に観察した。
我々は、U$と$-U$の両方にノイズを付加するシンプルな実用的なアルゴリズムを設計し、いくつかの摂動を加えて平均値を取ることができる。
このアルゴリズムの収束を解析し、出力の勾配のノルムに厳密な速度を示す。
まず, 過度パラメータ化行列検出問題において, ノイズ注入よりも低損失の解を求めることができることを示す。
そして,本アルゴリズムを,シャープネス・アウェア最小化(Foret et al ,2021)のような4つのシャープネス低減学習手法と比較した。
このアルゴリズムは,6つの画像分類データセット上でResNetを微調整することにより,最大1.8%の精度で性能を向上できることがわかった。
損失面のヘッセン行列のトレース(および最大の固有値)が17.7%(および12.8%)減少する。
この Hessian 上の正規化形式は $\ell_2$ weight decay (およびデータ拡張) と互換性があり、両者を組み合わせることで経験的性能が向上する。
関連論文リスト
- Adam-like Algorithm with Smooth Clipping Attains Global Minima: Analysis
Based on Ergodicity of Functional SDEs [0.0]
我々は,グローバル化された非-1損失関数を切断したAdam型アルゴリズムが正規化された非-1エラー形式を最小化することを示す。
また、スムーズな群のエルゴード理論を適用して、逆温度と時間を学ぶためのアプローチを研究する。
論文 参考訳(メタデータ) (2023-11-29T14:38:59Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - DP-PCA: Statistically Optimal and Differentially Private PCA [44.22319983246645]
DP-PCAは、両方の制限を克服するシングルパスアルゴリズムである。
準ガウスデータに対しては、$n=tilde O(d)$ であっても、ほぼ最適な統計的誤差率を提供する。
論文 参考訳(メタデータ) (2022-05-27T02:02:17Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Noise Regularizes Over-parameterized Rank One Matrix Recovery, Provably [42.427869499882206]
階数 1 の行列 $Y*$ by $XXtop$ をパラメータ化します。
次に,2乗損失関数を用いたランダムな摂動勾配降下法により得られた推定値の平均2乗誤差が$O(sigma2/d)$であることを示す。
対照的に、ランダムな摂動を伴わない勾配降下から得られる推定器は、平均2乗誤差が$O(sigma2)$となる。
論文 参考訳(メタデータ) (2022-02-07T21:53:51Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Online Robust Regression via SGD on the l1 loss [19.087335681007477]
ストリーミング方式でデータにアクセス可能なオンライン環境において、ロバストな線形回帰問題を考察する。
この研究で、$ell_O( 1 / (1 - eta)2 n )$損失の降下は、汚染された測定値に依存しない$tildeO( 1 / (1 - eta)2 n )$レートで真のパラメータベクトルに収束することを示した。
論文 参考訳(メタデータ) (2020-07-01T11:38:21Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。