論文の概要: How to escape sharp minima
- arxiv url: http://arxiv.org/abs/2305.15659v1
- Date: Thu, 25 May 2023 02:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:52:28.991201
- Title: How to escape sharp minima
- Title(参考訳): 鋭いミニマから逃れる方法
- Authors: Kwangjun Ahn, Ali Jadbabaie, Suvrit Sra
- Abstract要約: この研究は、平らなミニマを見つける方法に関するアルゴリズム的な問題を定式化し研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムを提案する。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 61.037425069558694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning applications have seen a remarkable success of
optimization algorithms that are designed to find flat minima. Motivated by
this paradigm, this work formulates and studies the algorithmic question of how
to find flat minima. As an initial effort, this work adopts the trace of
hessian of the cost function as the measure of flatness, and formally defines
the notion of approximate flat minima. Under this notion, we then design
algorithms that find approximate flat minima efficiently. For general cost
functions, we present a gradient-based algorithm that finds an approximate flat
local minimum efficiently. The main component of the algorithm is to use
gradients computed from randomly perturbed iterates to estimate a direction
that leads to flatter minima. For the setting where the cost function is an
empirical risk over training data, we present a faster algorithm that is
inspired by a recently proposed practical algorithm called sharpness-aware
minimization, supporting its success in practice.
- Abstract(参考訳): 現代の機械学習アプリケーションは、フラットなミニマを見つけるために設計された最適化アルゴリズムが驚くべき成功を収めている。
このパラダイムに動機づけられたこの研究は、平らなミニマを見つける方法に関するアルゴリズム的な問題を定式化し研究する。
最初の試みとして、この研究はコスト関数のヘッセンのトレースを平坦性の尺度として採用し、近似平坦極小の概念を正式に定義した。
この概念の下で、近似平坦な最小値を求めるアルゴリズムを効率的に設計する。
一般費用関数に対して, 近似平坦な局所最小値を求める勾配に基づくアルゴリズムを提案する。
アルゴリズムの主な構成要素は、ランダムに摂動した反復から計算された勾配を用いて、より平坦な最小値につながる方向を推定することである。
コスト関数がトレーニングデータよりも経験的リスクであるような設定のために,最近提案されているシャープネス認識最小化(sharpness-aware minimization)と呼ばれる実用的なアルゴリズムに触発された,より高速なアルゴリズムを提案する。
関連論文リスト
- Deep Point-to-Plane Registration by Efficient Backpropagation for Error
Minimizing Function [0.0]
点集合登録の伝統的なアルゴリズムは、点から点までの距離を最小化するアルゴリズムよりも、剛性変換をより正確に推定する。
近年の深層学習に基づく手法はポイント・ツー・ポイント距離を最小化している。
本論文は,平面間登録における深層学習に基づく最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-14T05:18:20Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Asymptotic study of stochastic adaptive algorithm in non-convex
landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。
このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文 参考訳(メタデータ) (2020-12-10T12:54:45Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - Gradient Free Minimax Optimization: Variance Reduction and Faster
Convergence [120.9336529957224]
本稿では、勾配のないミニマックス最適化問題の大きさを非強設定で表現する。
本稿では,新しいゼロ階分散還元降下アルゴリズムが,クエリの複雑さを最もよく表すことを示す。
論文 参考訳(メタデータ) (2020-06-16T17:55:46Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Exploiting Higher Order Smoothness in Derivative-free Optimization and
Continuous Bandits [99.70167985955352]
強凸関数のゼロ次最適化問題について検討する。
予測勾配降下アルゴリズムのランダム化近似を考察する。
その結果,0次アルゴリズムはサンプルの複雑性や問題パラメータの点でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-14T10:42:23Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。