論文の概要: Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To
Achieve Better Generalization
- arxiv url: http://arxiv.org/abs/2307.11007v1
- Date: Thu, 20 Jul 2023 16:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:10:38.468291
- Title: Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To
Achieve Better Generalization
- Title(参考訳): シャープネス最小化アルゴリズムはシャープネスを最小化するだけでなく、より高度な一般化を実現する
- Authors: Kaiyue Wen, Tengyu Ma, Zhiyuan Li
- Abstract要約: 既存の理論では、一般的なアーキテクチャはトレーニング損失のより平らな最小化を好んでいる。
この研究は、この説明を批判的に検証する。
以上の結果から,シャープネスと一般化の関係は微妙にデータに依存することが示唆された。
- 参考スコア(独自算出の注目度): 29.90109733192208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensive studies, the underlying reason as to why overparameterized
neural networks can generalize remains elusive. Existing theory shows that
common stochastic optimizers prefer flatter minimizers of the training loss,
and thus a natural potential explanation is that flatness implies
generalization. This work critically examines this explanation. Through
theoretical and empirical investigation, we identify the following three
scenarios for two-layer ReLU networks: (1) flatness provably implies
generalization; (2) there exist non-generalizing flattest models and sharpness
minimization algorithms fail to generalize, and (3) perhaps most surprisingly,
there exist non-generalizing flattest models, but sharpness minimization
algorithms still generalize. Our results suggest that the relationship between
sharpness and generalization subtly depends on the data distributions and the
model architectures and sharpness minimization algorithms do not only minimize
sharpness to achieve better generalization. This calls for the search for other
explanations for the generalization of over-parameterized neural networks.
- Abstract(参考訳): 広範な研究にもかかわらず、過剰パラメータ化されたニューラルネットワークが一般化できる理由については、いまだに解明されていない。
既存の理論では、一般的な確率最適化器は訓練損失のより平坦な最小化器を好んでおり、従って平坦性は一般化を意味するという自然な説明がある。
この研究はこの説明を批判的に検証する。
1) 平坦性が一般化を立証する, (2) 非一般化平坦性モデルが存在する, (2) シャープ性最小化アルゴリズムは一般化しない, (3) もっとも驚くことに、非一般化平坦性モデルが存在するが、シャープ性最小化アルゴリズムは依然として一般化している。
以上の結果から,シャープネスと一般化の関係はデータ分布とモデルアーキテクチャに依存し,シャープネス最小化アルゴリズムはシャープネスを最小化するだけでなく,より優れた一般化を実現することができることが示唆された。
これにより、超パラメータニューラルネットワークの一般化のための他の説明の探索が要求される。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。
SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。
本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-13T10:44:10Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Flatness is a False Friend [0.7614628596146599]
ヘッセンに基づく平坦性の測度は、一般化に関連して議論され、使用され、示されている。
交叉エントロピー損失下でのフィードフォワードニューラルネットワークでは、大きな重みを持つ低損失解が、平らさの小さなヘッセン的基準を持つことを期待する。
論文 参考訳(メタデータ) (2020-06-16T11:55:24Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。