論文の概要: Entropic gradient descent algorithms and wide flat minima
- arxiv url: http://arxiv.org/abs/2006.07897v4
- Date: Mon, 15 Nov 2021 22:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:38:24.051619
- Title: Entropic gradient descent algorithms and wide flat minima
- Title(参考訳): エントロピック勾配降下アルゴリズムと広平面ミニマ
- Authors: Fabrizio Pittorino, Carlo Lucibello, Christoph Feinauer, Gabriele
Perugini, Carlo Baldassi, Elizaveta Demyanenko, Riccardo Zecchina
- Abstract要約: 広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
- 参考スコア(独自算出の注目度): 6.485776570966397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The properties of flat minima in the empirical risk landscape of neural
networks have been debated for some time. Increasing evidence suggests they
possess better generalization capabilities with respect to sharp ones. First,
we discuss Gaussian mixture classification models and show analytically that
there exist Bayes optimal pointwise estimators which correspond to minimizers
belonging to wide flat regions. These estimators can be found by applying
maximum flatness algorithms either directly on the classifier (which is norm
independent) or on the differentiable loss function used in learning. Next, we
extend the analysis to the deep learning scenario by extensive numerical
validations. Using two algorithms, Entropy-SGD and Replicated-SGD, that
explicitly include in the optimization objective a non-local flatness measure
known as local entropy, we consistently improve the generalization error for
common architectures (e.g. ResNet, EfficientNet). An easy to compute flatness
measure shows a clear correlation with test accuracy.
- Abstract(参考訳): ニューラルネットワークの経験的リスクランドスケープにおける平坦なミニマの性質は、しばらくの間議論されてきた。
証拠の増大は、鋭いものに対してより優れた一般化能力を持つことを示唆している。
まず,ガウス混合分類モデルについて考察し,広い平坦領域に属する最小値に対応するベイズ最適点ワイズ推定器が存在することを解析的に示す。
これらの推定器は、(標準独立である)分類器に直接、あるいは学習に使用される微分可微分損失関数に、最大平坦性アルゴリズムを適用することによって見つけることができる。
次に,広範囲な数値検証によって解析を深層学習シナリオに拡張する。
2つのアルゴリズムであるEntropy-SGDとReplicated-SGDを用いて、最適化対象に局所エントロピーとして知られる非局所平坦度尺度を明示的に含み、共通アーキテクチャ(ResNet、EfficientNetなど)の一般化誤差を一貫して改善する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
関連論文リスト
- Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Neighborhood Region Smoothing Regularization for Finding Flat Minima In
Deep Neural Networks [16.4654807047138]
我々はNRS(Neighborhood Region Smoothing)と呼ばれる効果的な正規化手法を提案する。
NRSは、近似出力を得るために、重量空間の近傍領域を規則化しようとする。
NRSによって発見されたミニマは、従来の方法に比べて比較的小さなヘッセン固有値を持つことを実証的に示す。
論文 参考訳(メタデータ) (2022-01-16T15:11:00Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - Wide flat minima and optimal generalization in classifying
high-dimensional Gaussian mixtures [8.556763944288116]
非平衡クラスタにおいても,ベイズ最適一般化誤差を実現する構成が存在することを示す。
また,平均二乗誤差損失の幅の広い平らな最小値を目標とするアルゴリズム的ケースについても検討した。
論文 参考訳(メタデータ) (2020-10-27T01:32:03Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。