Fugu-MT 論文翻訳(概要): Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

論文の概要: Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization

arxiv url: http://arxiv.org/abs/2307.11007v2
Date: Sun, 23 Jul 2023 03:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 11:12:29.134115
Title: Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization
Title（参考訳）: シャープネス最小化アルゴリズムはシャープネスを最小化するだけでなく、より高度な一般化を実現する
Authors: Kaiyue Wen, Zhiyuan Li, Tengyu Ma
Abstract要約: 既存の理論では、一般的なアーキテクチャはトレーニング損失のより平らな最小化を好んでいる。この研究は、この説明を批判的に検証する。以上の結果から,シャープネスと一般化の関係は微妙にデータに依存することが示唆された。
参考スコア（独自算出の注目度）: 29.90109733192208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite extensive studies, the underlying reason as to why overparameterized neural networks can generalize remains elusive. Existing theory shows that common stochastic optimizers prefer flatter minimizers of the training loss, and thus a natural potential explanation is that flatness implies generalization. This work critically examines this explanation. Through theoretical and empirical investigation, we identify the following three scenarios for two-layer ReLU networks: (1) flatness provably implies generalization; (2) there exist non-generalizing flattest models and sharpness minimization algorithms fail to generalize, and (3) perhaps most surprisingly, there exist non-generalizing flattest models, but sharpness minimization algorithms still generalize. Our results suggest that the relationship between sharpness and generalization subtly depends on the data distributions and the model architectures and sharpness minimization algorithms do not only minimize sharpness to achieve better generalization. This calls for the search for other explanations for the generalization of over-parameterized neural networks.
Abstract（参考訳）: 広範な研究にもかかわらず、過剰パラメータ化されたニューラルネットワークが一般化できる理由については、いまだに解明されていない。既存の理論では、一般的な確率最適化器は訓練損失のより平坦な最小化器を好んでおり、従って平坦性は一般化を意味するという自然な説明がある。この研究はこの説明を批判的に検証する。 1) 平坦性が一般化を立証する, (2) 非一般化平坦性モデルが存在する, (2) シャープ性最小化アルゴリズムは一般化しない, (3) もっとも驚くことに、非一般化平坦性モデルが存在するが、シャープ性最小化アルゴリズムは依然として一般化している。以上の結果から,シャープネスと一般化の関係はデータ分布とモデルアーキテクチャに依存し,シャープネス最小化アルゴリズムはシャープネスを最小化するだけでなく,より優れた一般化を実現することができることが示唆された。これにより、超パラメータニューラルネットワークの一般化のための他の説明の探索が要求される。

関連論文リスト

Flatness After All? [6.698677477097004]
我々は、ヘッセンの柔らかいランク測度を用いて平坦度を測定することで一般化を評価することができると論じる。非校正モデルに対しては、よく知られた竹内情報基準に平坦度尺度を接続し、過度に自信のないモデルに対する一般化ギャップの信頼性評価を行う。
論文参考訳（メタデータ） (2025-06-21T20:33:36Z)
Zeroth-Order Optimization Finds Flat Minima [51.41529512093436]
標準二点推定器によるゼロ階最適化は、ヘッセンの小さなトレースを持つ解を好むことを示す。さらに、凸関数と十分に滑らかな関数に対する近似平坦なミニマに対して、ゼロ階最適化の収束率を提供する。
論文参考訳（メタデータ） (2025-06-05T17:59:09Z)
A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff [57.25901375384457]
任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する漸近一般化理論を提案する。特に、文献でよく見られるように、損失関数の有界性を必要としない。回帰問題に対する多層ReLUネットワークに対する理論の極小最適性を示す。
論文参考訳（メタデータ） (2025-03-03T23:34:12Z)
Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文参考訳（メタデータ） (2024-06-06T01:52:09Z)
FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文参考訳（メタデータ） (2023-07-05T14:48:24Z)
The Inductive Bias of Flatness Regularization for Deep Matrix Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文参考訳（メタデータ） (2023-06-22T23:14:57Z)
Theoretical Characterization of How Neural Network Pruning Affects its Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文参考訳（メタデータ） (2023-01-01T03:10:45Z)
GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。 SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-13T10:44:10Z)
Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文参考訳（メタデータ） (2021-06-15T18:34:41Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
Flatness is a False Friend [0.7614628596146599]
ヘッセンに基づく平坦性の測度は、一般化に関連して議論され、使用され、示されている。交叉エントロピー損失下でのフィードフォワードニューラルネットワークでは、大きな重みを持つ低損失解が、平らさの小さなヘッセン的基準を持つことを期待する。
論文参考訳（メタデータ） (2020-06-16T11:55:24Z)
Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。解析を広範囲な数値検証により深層学習シナリオに拡張する。計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文参考訳（メタデータ） (2020-06-14T13:22:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。