論文の概要: How to escape sharp minima with random perturbations
- arxiv url: http://arxiv.org/abs/2305.15659v2
- Date: Fri, 2 Feb 2024 16:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:30:01.984687
- Title: How to escape sharp minima with random perturbations
- Title(参考訳): ランダムな摂動を伴う鋭いミニマから逃れる方法
- Authors: Kwangjun Ahn, Ali Jadbabaie, Suvrit Sra
- Abstract要約: 平らなミニマの概念とそれらを見つける複雑さについて研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 54.05440117388505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning applications have witnessed the remarkable success of
optimization algorithms that are designed to find flat minima. Motivated by
this design choice, we undertake a formal study that (i) formulates the notion
of flat minima, and (ii) studies the complexity of finding them. Specifically,
we adopt the trace of the Hessian of the cost function as a measure of
flatness, and use it to formally define the notion of approximate flat minima.
Under this notion, we then analyze algorithms that find approximate flat minima
efficiently. For general cost functions, we discuss a gradient-based algorithm
that finds an approximate flat local minimum efficiently. The main component of
the algorithm is to use gradients computed from randomly perturbed iterates to
estimate a direction that leads to flatter minima. For the setting where the
cost function is an empirical risk over training data, we present a faster
algorithm that is inspired by a recently proposed practical algorithm called
sharpness-aware minimization, supporting its success in practice.
- Abstract(参考訳): 現代の機械学習アプリケーションは、フラットなミニマを見つけるために設計された最適化アルゴリズムの驚くべき成功を目撃している。
このデザイン選択に動機づけられ 正式な研究が行われました
(i)平らなミニマの概念を定式化し、
(ii)発見の複雑さを研究する。
具体的には、コスト関数のヘッセンのトレースを平坦性の尺度として採用し、それを用いて近似平坦極小の概念を形式的に定義する。
この概念の下で、近似平坦な最小値を求めるアルゴリズムを効率的に解析する。
一般費用関数については、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて述べる。
アルゴリズムの主な構成要素は、ランダムに摂動した反復から計算された勾配を用いて、より平坦な最小値につながる方向を推定することである。
コスト関数がトレーニングデータよりも経験的リスクであるような設定のために,最近提案されているシャープネス認識最小化(sharpness-aware minimization)と呼ばれる実用的なアルゴリズムに触発された,より高速なアルゴリズムを提案する。
関連論文リスト
- Deep Point-to-Plane Registration by Efficient Backpropagation for Error
Minimizing Function [0.0]
点集合登録の伝統的なアルゴリズムは、点から点までの距離を最小化するアルゴリズムよりも、剛性変換をより正確に推定する。
近年の深層学習に基づく手法はポイント・ツー・ポイント距離を最小化している。
本論文は,平面間登録における深層学習に基づく最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-14T05:18:20Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Asymptotic study of stochastic adaptive algorithm in non-convex
landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。
このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文 参考訳(メタデータ) (2020-12-10T12:54:45Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。