論文の概要: A modern look at the relationship between sharpness and generalization
- arxiv url: http://arxiv.org/abs/2302.07011v1
- Date: Tue, 14 Feb 2023 12:38:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:24:58.731080
- Title: A modern look at the relationship between sharpness and generalization
- Title(参考訳): シャープネスと一般化の関係に関する現代的考察
- Authors: Maksym Andriushchenko, Francesco Croce, Maximilian M\"uller, Matthias
Hein, Nicolas Flammarion
- Abstract要約: ミニマのシャープ性は、ディープネットワークの一般化と相関できる有望な量である。
シャープネスは、ニューラルネットワークの再パラメータ化の下では不変ではない。
シャープネスは一般化とよく相関しないことを示す。
- 参考スコア(独自算出の注目度): 64.03012884804458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharpness of minima is a promising quantity that can correlate with
generalization in deep networks and, when optimized during training, can
improve generalization. However, standard sharpness is not invariant under
reparametrizations of neural networks, and, to fix this,
reparametrization-invariant sharpness definitions have been proposed, most
prominently adaptive sharpness (Kwon et al., 2021). But does it really capture
generalization in modern practical settings? We comprehensively explore this
question in a detailed study of various definitions of adaptive sharpness in
settings ranging from training from scratch on ImageNet and CIFAR-10 to
fine-tuning CLIP on ImageNet and BERT on MNLI. We focus mostly on transformers
for which little is known in terms of sharpness despite their widespread usage.
Overall, we observe that sharpness does not correlate well with generalization
but rather with some training parameters like the learning rate that can be
positively or negatively correlated with generalization depending on the setup.
Interestingly, in multiple cases, we observe a consistent negative correlation
of sharpness with out-of-distribution error implying that sharper minima can
generalize better. Finally, we illustrate on a simple model that the right
sharpness measure is highly data-dependent, and that we do not understand well
this aspect for realistic data distributions. The code of our experiments is
available at https://github.com/tml-epfl/sharpness-vs-generalization.
- Abstract(参考訳): minimaのシャープさは、ディープネットワークの一般化と相関のある有望な量であり、トレーニング中に最適化された場合、一般化を改善することができる。
しかし、標準シャープネスはニューラルネットワークの再パラメータ化の下では不変ではなく、これを修正するために再パラメトリゼーション-不変シャープネス定義が提案されており、最も顕著に適応シャープネス(Kwon et al., 2021)が提案されている。
しかし、現代の実用環境での一般化を実際に捉えているのだろうか?
我々は,imagenetのスクラッチからcifar-10のトレーニングからimagenetのファインチューニングクリップ,mnliのbertまで,様々な設定における適応シャープネスの定義を詳細に研究した。
我々は主に変圧器に焦点をあてるが、その普及にもかかわらず鋭さについてはほとんど知られていない。
全体として、シャープネスは一般化とよく相関せず、むしろ、設定に応じて一般化と正あるいは負の相関を持つ学習率などの訓練パラメータと相関する。
興味深いことに、複数のケースにおいて、よりシャープなミニマがより一般化できることを示す、分散誤差とのシャープネスの一貫した負の相関が観察されている。
最後に,正しいシャープネス尺度がデータ依存度が高いという単純なモデルを示し,現実のデータ分布に対するこの側面を十分に理解していないことを示す。
私たちの実験のコードはhttps://github.com/tml-epfl/sharpness-vs-generalizationで利用可能です。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning
of Deep Neural Networks [2.8292841621378844]
スケール不変の適応シャープネスの概念を導入し、対応する一般化境界を提案する。
本稿では,適応的シャープネス認識最小化(ASAM)という新たな学習手法を提案する。
各種ベンチマークデータセットの実験結果から,ASAMはモデル一般化性能の大幅な向上に寄与することが示された。
論文 参考訳(メタデータ) (2021-02-23T10:26:54Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Calibrating Deep Neural Networks using Focal Loss [77.92765139898906]
ミススキャリブレーション(Miscalibration)は、モデルの信頼性と正しさのミスマッチである。
焦点損失は、既に十分に校正されたモデルを学ぶことができることを示す。
ほぼすべてのケースにおいて精度を損なうことなく,最先端のキャリブレーションを達成できることを示す。
論文 参考訳(メタデータ) (2020-02-21T17:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。