論文の概要: Noise Stability Optimization for Flat Minima with Tight Rates
- arxiv url: http://arxiv.org/abs/2306.08553v2
- Date: Sun, 1 Oct 2023 20:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:03:12.871576
- Title: Noise Stability Optimization for Flat Minima with Tight Rates
- Title(参考訳): タイトレート平板ミニマの騒音安定性最適化
- Authors: Haotian Ju, Dongyue Li, and Hongyang R. Zhang
- Abstract要約: 一般化特性は学習アルゴリズムの設計と解析の中心的な側面である。
多くの先行研究において、良い一般化につながると考えられてきた概念は、平らなミニマである。
- 参考スコア(独自算出の注目度): 18.009376840944284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization properties are a central aspect of the design and analysis of
learning algorithms. One notion that has been considered in many previous works
as leading to good generalization is flat minima, which informally describes a
loss surface that is insensitive to noise perturbations. However, the design of
efficient algorithms (that are easy to analyze) to find them is relatively
under-explored. In this paper, we propose a new algorithm to address this
issue, which minimizes a stochastic optimization objective that averages noise
perturbations injected into the weights of a function. This algorithm is shown
to enjoy both theoretical and empirical advantages compared to existing
algorithms involving worst-case perturbations. Theoretically, we show tight
convergence rates of our algorithm to find first-order stationary points of the
stochastic objective. Empirically, the algorithm induces a penalty on the trace
of the Hessian, leading to iterates that are flatter than SGD and other
alternatives, with tighter generalization gaps. Altogether, this work
contributes a provable and practical algorithm to find flat minima by
optimizing the noise stability properties of a function.
- Abstract(参考訳): 一般化特性は学習アルゴリズムの設計と解析の中心的な側面である。
従来の多くの作品において、良い一般化につながると考えられてきた概念は、ノイズ摂動に敏感な損失曲面を非公式に記述した平坦なミニマである。
しかし、それらを発見するための効率的なアルゴリズム(分析が容易な)の設計は、比較的未検討である。
本稿では,関数の重み付けに注入される雑音の摂動を平均化する確率的最適化目標を最小化する,この問題に対処する新しいアルゴリズムを提案する。
このアルゴリズムは, 最悪の摂動を含む既存のアルゴリズムと比較して, 理論的および経験的優位性の両方を享受できることが示されている。
理論的には、確率的目的の1次定常点を求めるアルゴリズムの厳密な収束率を示す。
経験的に、アルゴリズムはヘッセンのトレース上でペナルティを誘導し、SGDや他の代替よりも平坦な反復を、より厳密な一般化ギャップで導く。
この研究は、関数の雑音安定性特性を最適化することにより、平坦な最小値を求めるための証明可能かつ実用的なアルゴリズムに寄与する。
関連論文リスト
- Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。
非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文 参考訳(メタデータ) (2024-09-06T00:34:44Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Robust Fine-Tuning of Deep Neural Networks with Hessian-based
Generalization Guarantees [20.2407347618552]
オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。
本稿では,クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
論文 参考訳(メタデータ) (2022-06-06T14:52:46Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Learning Rates as a Function of Batch Size: A Random Matrix Theory
Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。
我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。
VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文 参考訳(メタデータ) (2020-06-16T11:55:45Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。