Fugu-MT 論文翻訳(概要): Which Minimizer Does My Neural Network Converge To?

論文の概要: Which Minimizer Does My Neural Network Converge To?

arxiv url: http://arxiv.org/abs/2011.02408v2
Date: Thu, 30 Jun 2022 08:34:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 21:40:02.111456
Title: Which Minimizer Does My Neural Network Converge To?
Title（参考訳）: 私のニューラルネットワークはどの最小値に収束するのか?
Authors: Manuel Nonnenmacher, David Reeb, Ingo Steinwart
Abstract要約: 標準NNトレーニング手順の一般的な変種が、取得した最小化器をどのように変更するかを説明する。 AdaGradのような適応最適化では、得られた最小化器は一般に勾配降下(GD)最小化器と異なる。この適応型最小化器は、非適応型の場合、GDとGDが本質的に同じ最小化器となるにもかかわらず、ミニバッチトレーニングによりさらに変更される。
参考スコア（独自算出の注目度）: 5.575448433529451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The loss surface of an overparameterized neural network (NN) possesses many global minima of zero training error. We explain how common variants of the standard NN training procedure change the minimizer obtained. First, we make explicit how the size of the initialization of a strongly overparameterized NN affects the minimizer and can deteriorate its final test performance. We propose a strategy to limit this effect. Then, we demonstrate that for adaptive optimization such as AdaGrad, the obtained minimizer generally differs from the gradient descent (GD) minimizer. This adaptive minimizer is changed further by stochastic mini-batch training, even though in the non-adaptive case, GD and stochastic GD result in essentially the same minimizer. Lastly, we explain that these effects remain relevant for less overparameterized NNs. While overparameterization has its benefits, our work highlights that it induces sources of error absent from underparameterized models.
Abstract（参考訳）: 過パラメータニューラルネットワーク(NN)の損失面は、トレーニングエラーゼロの多くの大域的ミニマを持つ。標準NNトレーニング手順の一般的な変種が、得られた最小値を変化させる方法について説明する。まず、強過パラメータ化nnの初期化のサイズが最小化にどのように影響するかを明確にし、最終的なテスト性能を低下させる。我々はこの効果を制限する戦略を提案する。次に,アダグラードなどの適応最適化では,得られた最小値が勾配降下(gd)最小値と一般的に異なることを示す。この適応最小化器は、非適応ケースではGDと確率GDが本質的に同じ最小化器となるにもかかわらず、確率最小化訓練によりさらに変更される。最後に、これらの効果は、過度にパラメータ化されたNNに関係していると説明する。過パラメータ化にはメリットがあるが、我々の研究は、過パラメータ化モデルからエラーの原因が欠如していることを強調している。

関連論文リスト

Deep Minimax Classifiers for Imbalanced Datasets with a Small Number of Minority Samples [5.217870815854702]
本稿では,最低性能クラスのリスクを最小限に抑えるために,新しいミニマックス学習アルゴリズムを提案する。提案アルゴリズムは証明可能な収束特性を有しており,提案アルゴリズムは既存手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-02-24T08:20:02Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。高速グラフシャープネス認識最小化(FGSAM)を提案する。提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文参考訳（メタデータ） (2024-10-22T09:33:29Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文参考訳（メタデータ） (2024-06-06T01:52:09Z)
Adaptive Self-supervision Algorithms for Physics-informed Neural Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文参考訳（メタデータ） (2022-07-08T18:17:06Z)
Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。 SAFは、改善された能力で最小限の平らな収束を保証する。
論文参考訳（メタデータ） (2022-05-27T16:32:43Z)
Minimum Variance Unbiased N:M Sparsity for the Neural Gradients [29.555643722721882]
ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2まで削減する。本稿では,この手法を神経勾配にも適用する方法について検討する。
論文参考訳（メタデータ） (2022-03-21T13:59:43Z)
On the Optimization Landscape of Neural Collapse under MSE Loss: Global Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文参考訳（メタデータ） (2022-03-02T17:00:18Z)
BN-invariant sharpness regularizes the training model to better generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文参考訳（メタデータ） (2021-01-08T10:23:24Z)
The Effects of Mild Over-parameterization on the Optimization Landscape of Shallow ReLU Neural Networks [36.35321290763711]
我々は,教師と学生のネットワークが同じ数のニューロンを持つ場合,その目的がグローバルなミニマを強く囲むことを証明した。非グロバルなミニマの場合、単一のニューロンだけを追加することで、非グロバルな最小値がサドルポイントとなることが証明される。
論文参考訳（メタデータ） (2020-06-01T15:13:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。