Fugu-MT 論文翻訳(概要): Noise Stability Optimization for Flat Minima with Tight Rates

論文の概要: Noise Stability Optimization for Flat Minima with Tight Rates

arxiv url: http://arxiv.org/abs/2306.08553v2
Date: Sun, 1 Oct 2023 20:06:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:03:12.871576
Title: Noise Stability Optimization for Flat Minima with Tight Rates
Title（参考訳）: タイトレート平板ミニマの騒音安定性最適化
Authors: Haotian Ju, Dongyue Li, and Hongyang R. Zhang
Abstract要約: 一般化特性は学習アルゴリズムの設計と解析の中心的な側面である。多くの先行研究において、良い一般化につながると考えられてきた概念は、平らなミニマである。
参考スコア（独自算出の注目度）: 18.009376840944284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generalization properties are a central aspect of the design and analysis of learning algorithms. One notion that has been considered in many previous works as leading to good generalization is flat minima, which informally describes a loss surface that is insensitive to noise perturbations. However, the design of efficient algorithms (that are easy to analyze) to find them is relatively under-explored. In this paper, we propose a new algorithm to address this issue, which minimizes a stochastic optimization objective that averages noise perturbations injected into the weights of a function. This algorithm is shown to enjoy both theoretical and empirical advantages compared to existing algorithms involving worst-case perturbations. Theoretically, we show tight convergence rates of our algorithm to find first-order stationary points of the stochastic objective. Empirically, the algorithm induces a penalty on the trace of the Hessian, leading to iterates that are flatter than SGD and other alternatives, with tighter generalization gaps. Altogether, this work contributes a provable and practical algorithm to find flat minima by optimizing the noise stability properties of a function.
Abstract（参考訳）: 一般化特性は学習アルゴリズムの設計と解析の中心的な側面である。従来の多くの作品において、良い一般化につながると考えられてきた概念は、ノイズ摂動に敏感な損失曲面を非公式に記述した平坦なミニマである。しかし、それらを発見するための効率的なアルゴリズム(分析が容易な)の設計は、比較的未検討である。本稿では,関数の重み付けに注入される雑音の摂動を平均化する確率的最適化目標を最小化する,この問題に対処する新しいアルゴリズムを提案する。このアルゴリズムは, 最悪の摂動を含む既存のアルゴリズムと比較して, 理論的および経験的優位性の両方を享受できることが示されている。理論的には、確率的目的の1次定常点を求めるアルゴリズムの厳密な収束率を示す。経験的に、アルゴリズムはヘッセンのトレース上でペナルティを誘導し、SGDや他の代替よりも平坦な反復を、より厳密な一般化ギャップで導く。この研究は、関数の雑音安定性特性を最適化することにより、平坦な最小値を求めるための証明可能かつ実用的なアルゴリズムに寄与する。

関連論文リスト

Feature Preserving Shrinkage on Bayesian Neural Networks via the R2D2 Prior [22.218522445858344]
ベイズニューラルネットワーク(BNN)は、ニューラルネットワークの重みを確率変数として扱う。本稿では,BNNの重み付けに先立って,R2誘起ディリクレ分解(R2D2)を強制する新しいR2D2-Netを提案する。 R2D2-Netは、重要な特徴を過収縮から防ぎながら、無関係な係数をゼロに効果的に縮小することができる。
論文参考訳（メタデータ） (2025-05-23T18:15:44Z)
Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文参考訳（メタデータ） (2024-09-19T17:56:16Z)
Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文参考訳（メタデータ） (2024-09-06T00:34:44Z)
The Inductive Bias of Flatness Regularization for Deep Matrix Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文参考訳（メタデータ） (2023-06-22T23:14:57Z)
Robust Fine-Tuning of Deep Neural Networks with Hessian-based Generalization Guarantees [20.2407347618552]
オーバーフィッティングの問題を理解するために,ファインチューニングの一般化特性について検討する。本稿では,クラス条件独立ノイズモデルに基づくアルゴリズムと一般化誤差保証を提案する。
論文参考訳（メタデータ） (2022-06-06T14:52:46Z)
Error-Correcting Neural Networks for Two-Dimensional Curvature Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文参考訳（メタデータ） (2022-01-22T05:14:40Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。 MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文参考訳（メタデータ） (2020-10-12T17:41:44Z)
Learning Rates as a Function of Batch Size: A Random Matrix Theory Approach to Neural Network Training [2.9649783577150837]
スパイクされたフィールド依存ランダム行列理論を用いて, ニューラルネットの損失景観に及ぼすミニバッチの影響について検討した。我々は、スムーズで非ニュートンディープニューラルネットワークのための最大降下および適応訓練規則の解析式を導出する。 VGG/ResNetおよびImageNetデータセットのクレームを検証する。
論文参考訳（メタデータ） (2020-06-16T11:55:45Z)
Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文参考訳（メタデータ） (2020-06-04T21:51:21Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。