論文の概要: Flatness is a False Friend
- arxiv url: http://arxiv.org/abs/2006.09091v1
- Date: Tue, 16 Jun 2020 11:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:17:39.080085
- Title: Flatness is a False Friend
- Title(参考訳): フラットネスは偽りの友人です
- Authors: Diego Granziol
- Abstract要約: ヘッセンに基づく平坦性の測度は、一般化に関連して議論され、使用され、示されている。
交叉エントロピー損失下でのフィードフォワードニューラルネットワークでは、大きな重みを持つ低損失解が、平らさの小さなヘッセン的基準を持つことを期待する。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hessian based measures of flatness, such as the trace, Frobenius and spectral
norms, have been argued, used and shown to relate to generalisation. In this
paper we demonstrate that for feed forward neural networks under the cross
entropy loss, we would expect low loss solutions with large weights to have
small Hessian based measures of flatness. This implies that solutions obtained
using $L2$ regularisation should in principle be sharper than those without,
despite generalising better. We show this to be true for logistic regression,
multi-layer perceptrons, simple convolutional, pre-activated and wide residual
networks on the MNIST and CIFAR-$100$ datasets. Furthermore, we show that for
adaptive optimisation algorithms using iterate averaging, on the VGG-$16$
network and CIFAR-$100$ dataset, achieve superior generalisation to SGD but are
$30 \times$ sharper. This theoretical finding, along with experimental results,
raises serious questions about the validity of Hessian based sharpness measures
in the discussion of generalisation. We further show that the Hessian rank can
be bounded by the a constant times number of neurons multiplied by the number
of classes, which in practice is often a small fraction of the network
parameters. This explains the curious observation that many Hessian eigenvalues
are either zero or very near zero which has been reported in the literature.
- Abstract(参考訳): トレース、フロベニウス、スペクトルノルムといったヘッセンに基づく平坦性の測度が議論され、一般化に関係して示されてきた。
本稿では,クロスエントロピー損失下でのフィードフォワードニューラルネットワークについて,重みを持つ低損失解には,ヘシアンベースの平坦性尺度が小さいことを実証する。
これは、l2$の正規化で得られる解は、一般化したにもかかわらず、原則として非正規化より鋭くなければならないことを意味する。
これは、ロジスティック回帰、多層パーセプトロン、単純な畳み込み、mnistおよびcifar-100$データセット上の事前活性化および広範囲の残留ネットワークに当てはまる。
さらに,イテレート平均化を用いた適応最適化アルゴリズムでは,vgg-$16$ network と cifar-$100$ dataset において,sgd の優れた一般化を実現するが,30 \times$ sharp であることを示す。
この理論的発見は、実験結果とともに、一般化の議論において、ヘッセンに基づく鋭度尺度の有効性に関する深刻な疑問を提起する。
さらに,ヘシアンのランクはクラス数に乗じた一定回数のニューロン数で区切ることができ,実際にはネットワークパラメータのごく一部であることが多い。
これは、多くのヘッセン固有値が、文献で報告されているゼロまたは非常に0に近いものであるという興味深い観察を説明する。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Loss Minimization Yields Multicalibration for Large Neural Networks [16.047146428254592]
マルチキャリブレーション(英: multicalibration)とは、予測器に対して、多数の保護されたグループに対して校正された予測を提供することを要求する公平性の概念である。
大きさ$n$の全てのニューラルネット上の2乗損失を最小化することは、有界な不運な値が$n$であるにもかかわらず、すべてに対して多重校正を意味することを示す。
論文 参考訳(メタデータ) (2023-04-19T05:16:20Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - Generalized Quantile Loss for Deep Neural Networks [0.8594140167290096]
このノートは、回帰ニューラルネットワークにカウント(または量子化)制約を追加する簡単な方法を示しています。トレーニングセットで$n$サンプルを与えられた場合、$mn$サンプルの予測が実際の値(ラベル)よりも大きいことを保証します。
標準分位レグレッションネットワークとは異なり、提案手法は任意の損失関数に適用できるが、標準分位レグレッション損失は必ずしも適用できず、平均絶対差を最小化することができる。
論文 参考訳(メタデータ) (2020-12-28T16:37:02Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - Generalization error in high-dimensional perceptrons: Approaching Bayes
error with convex optimization [37.57922952189396]
高次元状態における標準分類器の一般化性能について検討する。
ベイズ最適一般化誤差を確実に導く最適損失と正則化器を設計する。
論文 参考訳(メタデータ) (2020-06-11T16:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。