論文の概要: Unveiling the structure of wide flat minima in neural networks
- arxiv url: http://arxiv.org/abs/2107.01163v1
- Date: Fri, 2 Jul 2021 16:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:39:32.157654
- Title: Unveiling the structure of wide flat minima in neural networks
- Title(参考訳): ニューラルネットワークにおける広平面ミニマの構造の解明
- Authors: Carlo Baldassi, Clarissa Lauditi, Enrico M. Malatesta, Gabriele
Perugini, Riccardo Zecchina
- Abstract要約: ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
- 参考スコア(独自算出の注目度): 0.46664938579243564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep learning has revealed the application potential of neural
networks across the sciences and opened up fundamental theoretical problems. In
particular, the fact that learning algorithms based on simple variants of
gradient methods are able to find near-optimal minima of highly nonconvex loss
functions is an unexpected feature of neural networks which needs to be
understood in depth. Such algorithms are able to fit the data almost perfectly,
even in the presence of noise, and yet they have excellent predictive
capabilities. Several empirical results have shown a reproducible correlation
between the so-called flatness of the minima achieved by the algorithms and the
generalization performance. At the same time, statistical physics results have
shown that in nonconvex networks a multitude of narrow minima may coexist with
a much smaller number of wide flat minima, which generalize well. Here we show
that wide flat minima arise from the coalescence of minima that correspond to
high-margin classifications. Despite being exponentially rare compared to
zero-margin solutions, high-margin minima tend to concentrate in particular
regions. These minima are in turn surrounded by other solutions of smaller and
smaller margin, leading to dense regions of solutions over long distances. Our
analysis also provides an alternative analytical method for estimating when
flat minima appear and when algorithms begin to find solutions, as the number
of model parameters varies.
- Abstract(参考訳): ディープラーニングの成功は、科学全体にわたるニューラルネットワークの応用の可能性を明らかにし、基本的な理論的問題を開いた。
特に、勾配法の単純な変種に基づく学習アルゴリズムが、非凸損失関数のほぼ最適最小値を見つけることができるという事実は、ニューラルネットワークの予期せぬ特徴であり、深く理解する必要がある。
このようなアルゴリズムは、ノイズがあってもほぼ完璧にデータを適合させることができるが、予測能力は優れている。
いくつかの実験結果は、アルゴリズムによって達成されたいわゆる極小の平坦性と一般化性能との再現可能な相関を示した。
同時に、統計物理学の結果は、非凸ネットワークにおいて、多くの狭小極小が、より少ない幅の平らな極小と共存していることを示しており、これはよく一般化している。
ここでは,高いマージン分類に対応するミニマの合体から,広い平坦なミニマが生まれることを示す。
ゼロマージン解と比較して指数関数的に稀であるにもかかわらず、高マージンミニマは特定の領域に集中する傾向がある。
これらのミニマは、より小さく、より小さな縁の他の解に囲まれており、長距離の溶液の密集領域につながる。
また, モデルパラメータの数が異なるため, 平坦な最小値が出現し, アルゴリズムが解を見つけ始めるタイミングを推定する代替分析手法も提供する。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - How to escape sharp minima with random perturbations [48.095392390925745]
平らなミニマの概念とそれらを見つける複雑さについて研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:12:33Z) - Typical and atypical solutions in non-convex neural networks with
discrete and continuous weights [2.7127628066830414]
ランダムな規則や関連を学習する単純な非拘束型ネットワークモデルとして、二項および連続負マージンパーセプトロンについて検討する。
どちらのモデルも、非常に平坦で幅の広い劣支配的な最小化器を示す。
両モデルにおいて、学習装置としての一般化性能は、広い平坦な最小化器の存在により大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-04-26T23:34:40Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Neighborhood Region Smoothing Regularization for Finding Flat Minima In
Deep Neural Networks [16.4654807047138]
我々はNRS(Neighborhood Region Smoothing)と呼ばれる効果的な正規化手法を提案する。
NRSは、近似出力を得るために、重量空間の近傍領域を規則化しようとする。
NRSによって発見されたミニマは、従来の方法に比べて比較的小さなヘッセン固有値を持つことを実証的に示す。
論文 参考訳(メタデータ) (2022-01-16T15:11:00Z) - Learning through atypical ''phase transitions'' in overparameterized
neural networks [0.43496401697112685]
現在のディープニューラルネットワークは可観測性が高く(最大数十億の接続重み)、非線形である。
しかし、過剰な降下アルゴリズムによってほぼ完全にデータに適合し、予期せぬ精度の予測を達成できる。
これらは一般化なしの恐ろしい挑戦である。
論文 参考訳(メタデータ) (2021-10-01T23:28:07Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。