論文の概要: BN-invariant sharpness regularizes the training model to better
generalization
- arxiv url: http://arxiv.org/abs/2101.02944v1
- Date: Fri, 8 Jan 2021 10:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:04:52.384248
- Title: BN-invariant sharpness regularizes the training model to better
generalization
- Title(参考訳): BN不変シャープネスはより良い一般化のためにトレーニングモデルを正規化する
- Authors: Mingyang Yi, Huishuai Zhang, Wei Chen, Zhi-Ming Ma, Tie-Yan Liu
- Abstract要約: BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
- 参考スコア(独自算出の注目度): 72.97766238317081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is arguably believed that flatter minima can generalize better. However,
it has been pointed out that the usual definitions of sharpness, which consider
either the maxima or the integral of loss over a $\delta$ ball of parameters
around minima, cannot give consistent measurement for scale invariant neural
networks, e.g., networks with batch normalization layer. In this paper, we
first propose a measure of sharpness, BN-Sharpness, which gives consistent
value for equivalent networks under BN. It achieves the property of scale
invariance by connecting the integral diameter with the scale of parameter.
Then we present a computation-efficient way to calculate the BN-sharpness
approximately i.e., one dimensional integral along the "sharpest" direction.
Furthermore, we use the BN-sharpness to regularize the training and design an
algorithm to minimize the new regularized objective. Our algorithm achieves
considerably better performance than vanilla SGD over various experiment
settings.
- Abstract(参考訳): より平らなミニマはより一般化できると考えられている。
しかし、例えばバッチ正規化層を持つネットワークのようなスケール不変のニューラルネットワークに対して、最小値が$\delta$のパラメータの球の最大値か損失の積分値のどちらかを考える通常のシャープネスの定義は一貫して測定できないことが指摘されている。
本稿では,まず,bn の等価ネットワークに対して一貫した値を与える bn-sharpness 尺度を提案する。
これにより、積分径とパラメータのスケールを接続することで、スケール不変性が得られる。
次に, BN-シャープ性(BN-シャープ性)を「シャープ」方向に沿った1次元積分で計算する計算効率のよい方法を提案する。
さらに,bnシャープネスを用いて学習を規則化し,新しい正規化目標を最小化するアルゴリズムを設計する。
本アルゴリズムは,バニラSGDよりも,様々な実験環境において優れた性能を実現する。
関連論文リスト
- A Modern Look at the Relationship between Sharpness and Generalization [64.03012884804458]
ミニマのシャープ性は、ディープネットワークの一般化と相関できる有望な量である。
シャープネスは、ニューラルネットワークの再パラメータ化の下では不変ではない。
シャープネスは一般化とよく相関しないことを示す。
論文 参考訳(メタデータ) (2023-02-14T12:38:12Z) - Efficient Generalization Improvement Guided by Random Weight
Perturbation [24.027159739234524]
Gruesome-aware Minimization (SAM)は、一般化の改善のための一般的なスキームを確立する。
我々は、SAMのネスト勾配を分離するために、フィルタワイズランダムウェイト摂動(RWP)を利用する。
我々は、CIFAR上での非常に競争力のあるパフォーマンスと、ImageNet上での極めて優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-21T14:24:34Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Revisiting Batch Normalization [0.0]
バッチ正規化(BN)は、ディープニューラルネットワークのトレーニングに不可欠である。
我々は、BNの定式化を再検討し、上記の問題に対処するために、BNの新しい方法と更新アプローチを提案する。
提案手法をBNに変更した実験結果は,様々なシナリオにおいて統計的に有意な性能向上を示した。
また、オンラインBNベースの入力データ正規化手法を提案し、他のオフラインや固定メソッドの必要性を軽減する。
論文 参考訳(メタデータ) (2021-10-26T19:48:19Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - Holistic Filter Pruning for Efficient Deep Neural Networks [25.328005340524825]
HFP(Holistic Filter Pruning)は、実装が容易で正確なプルーニング率の特定が可能な、一般的なDNNトレーニングのための新しいアプローチである。
各種実験において,CIFAR-10 と ImageNet のトレーニングと最先端性能について考察した。
論文 参考訳(メタデータ) (2020-09-17T09:23:36Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Towards Stabilizing Batch Statistics in Backward Propagation of Batch
Normalization [126.6252371899064]
移動平均バッチ正規化(MABN)は,新しい正規化法である。
小バッチの場合,MABNはバニラBNの性能を完全に回復できることを示す。
実験では、ImageNetやCOCOを含む複数のコンピュータビジョンタスクにおけるMABNの有効性を実証した。
論文 参考訳(メタデータ) (2020-01-19T14:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。