論文の概要: Which Minimizer Does My Neural Network Converge To?
- arxiv url: http://arxiv.org/abs/2011.02408v2
- Date: Thu, 30 Jun 2022 08:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:40:02.111456
- Title: Which Minimizer Does My Neural Network Converge To?
- Title(参考訳): 私のニューラルネットワークはどの最小値に収束するのか?
- Authors: Manuel Nonnenmacher, David Reeb, Ingo Steinwart
- Abstract要約: 標準NNトレーニング手順の一般的な変種が、取得した最小化器をどのように変更するかを説明する。
AdaGradのような適応最適化では、得られた最小化器は一般に勾配降下(GD)最小化器と異なる。
この適応型最小化器は、非適応型の場合、GDとGDが本質的に同じ最小化器となるにもかかわらず、ミニバッチトレーニングによりさらに変更される。
- 参考スコア(独自算出の注目度): 5.575448433529451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The loss surface of an overparameterized neural network (NN) possesses many
global minima of zero training error. We explain how common variants of the
standard NN training procedure change the minimizer obtained. First, we make
explicit how the size of the initialization of a strongly overparameterized NN
affects the minimizer and can deteriorate its final test performance. We
propose a strategy to limit this effect. Then, we demonstrate that for adaptive
optimization such as AdaGrad, the obtained minimizer generally differs from the
gradient descent (GD) minimizer. This adaptive minimizer is changed further by
stochastic mini-batch training, even though in the non-adaptive case, GD and
stochastic GD result in essentially the same minimizer. Lastly, we explain that
these effects remain relevant for less overparameterized NNs. While
overparameterization has its benefits, our work highlights that it induces
sources of error absent from underparameterized models.
- Abstract(参考訳): 過パラメータニューラルネットワーク(NN)の損失面は、トレーニングエラーゼロの多くの大域的ミニマを持つ。
標準NNトレーニング手順の一般的な変種が、得られた最小値を変化させる方法について説明する。
まず、強過パラメータ化nnの初期化のサイズが最小化にどのように影響するかを明確にし、最終的なテスト性能を低下させる。
我々はこの効果を制限する戦略を提案する。
次に,アダグラードなどの適応最適化では,得られた最小値が勾配降下(gd)最小値と一般的に異なることを示す。
この適応最小化器は、非適応ケースではGDと確率GDが本質的に同じ最小化器となるにもかかわらず、確率最小化訓練によりさらに変更される。
最後に、これらの効果は、過度にパラメータ化されたNNに関係していると説明する。
過パラメータ化にはメリットがあるが、我々の研究は、過パラメータ化モデルからエラーの原因が欠如していることを強調している。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Model [105.63770797908127]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Receding Neuron Importances for Structured Pruning [11.375436522599133]
構造化プルーニングは、重要でないニューロンを特定して除去することで、ネットワークを効率的に圧縮する。
境界スケーリングパラメータを持つ単純なBatchNorm変動を導入し、低重要性のニューロンのみを抑制する新しい正規化項を設計する。
我々は、この方法でトレーニングされたニューラルネットワークを、より大きく、より少ない劣化で刈り取ることができることを示した。
論文 参考訳(メタデータ) (2022-04-13T14:08:27Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - The Effects of Mild Over-parameterization on the Optimization Landscape
of Shallow ReLU Neural Networks [36.35321290763711]
我々は,教師と学生のネットワークが同じ数のニューロンを持つ場合,その目的がグローバルなミニマを強く囲むことを証明した。
非グロバルなミニマの場合、単一のニューロンだけを追加することで、非グロバルな最小値がサドルポイントとなることが証明される。
論文 参考訳(メタデータ) (2020-06-01T15:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。