論文の概要: Which Minimizer Does My Neural Network Converge To?
- arxiv url: http://arxiv.org/abs/2011.02408v2
- Date: Thu, 30 Jun 2022 08:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:40:02.111456
- Title: Which Minimizer Does My Neural Network Converge To?
- Title(参考訳): 私のニューラルネットワークはどの最小値に収束するのか?
- Authors: Manuel Nonnenmacher, David Reeb, Ingo Steinwart
- Abstract要約: 標準NNトレーニング手順の一般的な変種が、取得した最小化器をどのように変更するかを説明する。
AdaGradのような適応最適化では、得られた最小化器は一般に勾配降下(GD)最小化器と異なる。
この適応型最小化器は、非適応型の場合、GDとGDが本質的に同じ最小化器となるにもかかわらず、ミニバッチトレーニングによりさらに変更される。
- 参考スコア(独自算出の注目度): 5.575448433529451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The loss surface of an overparameterized neural network (NN) possesses many
global minima of zero training error. We explain how common variants of the
standard NN training procedure change the minimizer obtained. First, we make
explicit how the size of the initialization of a strongly overparameterized NN
affects the minimizer and can deteriorate its final test performance. We
propose a strategy to limit this effect. Then, we demonstrate that for adaptive
optimization such as AdaGrad, the obtained minimizer generally differs from the
gradient descent (GD) minimizer. This adaptive minimizer is changed further by
stochastic mini-batch training, even though in the non-adaptive case, GD and
stochastic GD result in essentially the same minimizer. Lastly, we explain that
these effects remain relevant for less overparameterized NNs. While
overparameterization has its benefits, our work highlights that it induces
sources of error absent from underparameterized models.
- Abstract(参考訳): 過パラメータニューラルネットワーク(NN)の損失面は、トレーニングエラーゼロの多くの大域的ミニマを持つ。
標準NNトレーニング手順の一般的な変種が、得られた最小値を変化させる方法について説明する。
まず、強過パラメータ化nnの初期化のサイズが最小化にどのように影響するかを明確にし、最終的なテスト性能を低下させる。
我々はこの効果を制限する戦略を提案する。
次に,アダグラードなどの適応最適化では,得られた最小値が勾配降下(gd)最小値と一般的に異なることを示す。
この適応最小化器は、非適応ケースではGDと確率GDが本質的に同じ最小化器となるにもかかわらず、確率最小化訓練によりさらに変更される。
最後に、これらの効果は、過度にパラメータ化されたNNに関係していると説明する。
過パラメータ化にはメリットがあるが、我々の研究は、過パラメータ化モデルからエラーの原因が欠如していることを強調している。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Minimum Variance Unbiased N:M Sparsity for the Neural Gradients [29.555643722721882]
ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2まで削減する。
本稿では,この手法を神経勾配にも適用する方法について検討する。
論文 参考訳(メタデータ) (2022-03-21T13:59:43Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - The Effects of Mild Over-parameterization on the Optimization Landscape
of Shallow ReLU Neural Networks [36.35321290763711]
我々は,教師と学生のネットワークが同じ数のニューロンを持つ場合,その目的がグローバルなミニマを強く囲むことを証明した。
非グロバルなミニマの場合、単一のニューロンだけを追加することで、非グロバルな最小値がサドルポイントとなることが証明される。
論文 参考訳(メタデータ) (2020-06-01T15:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。