論文の概要: Is Batch Norm unique? An empirical investigation and prescription to
emulate the best properties of common normalizers without batch dependence
- arxiv url: http://arxiv.org/abs/2010.10687v1
- Date: Wed, 21 Oct 2020 00:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 22:39:29.172889
- Title: Is Batch Norm unique? An empirical investigation and prescription to
emulate the best properties of common normalizers without batch dependence
- Title(参考訳): Batch Normはユニークか?
バッチ依存を伴わない共通正規化器の最適特性をエミュレートする経験的研究と処方
- Authors: Vinay Rao, Jascha Sohl-Dickstein
- Abstract要約: バッチノルムおよび他の一般的な正規化器の統計的性質について検討する。
PreLayerNormとRegNormという2つの単純な正規化器を提案します。
- 参考スコア(独自算出の注目度): 33.07255026021875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We perform an extensive empirical study of the statistical properties of
Batch Norm and other common normalizers. This includes an examination of the
correlation between representations of minibatches, gradient norms, and Hessian
spectra both at initialization and over the course of training. Through this
analysis, we identify several statistical properties which appear linked to
Batch Norm's superior performance. We propose two simple normalizers,
PreLayerNorm and RegNorm, which better match these desirable properties without
involving operations along the batch dimension. We show that PreLayerNorm and
RegNorm achieve much of the performance of Batch Norm without requiring batch
dependence, that they reliably outperform LayerNorm, and that they can be
applied in situations where Batch Norm is ineffective.
- Abstract(参考訳): バッチノルムおよび他の共通正規化器の統計特性に関する広範な実証研究を行う。
これには、ミニバッチの表現、勾配ノルム、およびヘッセンスペクトルの初期化および訓練過程における相関の検証が含まれる。
この解析により,バッチノルムの優れた性能に関連付けられたいくつかの統計特性を同定した。
そこで本研究では,プリレイヤノルムとレグノルムという2つの単純な正規化器を提案する。
PreLayerNormとRegNormはバッチ依存を必要とせずにBatch Normの性能の多くを達成し、LayerNormを確実に上回っており、Batch Normが有効でない状況でも適用可能であることを示す。
関連論文リスト
- MANO: Exploiting Matrix Norm for Unsupervised Accuracy Estimation Under Distribution Shifts [25.643876327918544]
モデルのアウトプット、特にロジットを活用することは、トレーニング済みニューラルネットワークのテスト精度を、アウト・オブ・ディストリビューションのサンプルで推定する一般的なアプローチである。
実装の容易さと計算効率にもかかわらず、現在のロジットベースの手法は過信問題に弱いため、予測バイアスにつながる。
予測バイアスを低減するためにデータ依存正規化を適用したMaNoを提案し,正規化ロジットの行列の$L_p$ノルムを推定スコアとする。
論文 参考訳(メタデータ) (2024-05-29T10:45:06Z) - Iterative Regularization with k-support Norm: An Important Complement to Sparse Recovery [33.26163081551751]
本稿では,$k$サポート標準正規化器に基づく新しい反復正規化アルゴリズムIRKSNを提案する。
IRKSNを用いてスパースリカバリ条件を提供し、従来のリカバリ条件と$ell_1$標準正規化器を比較した。
また、IRKSNのモデル誤差を定数で早期に停止し、スパースリカバリの標準線形レートを達成する。
論文 参考訳(メタデータ) (2023-12-19T09:21:08Z) - The Implicit Bias of Batch Normalization in Linear Models and Two-layer
Linear Convolutional Neural Networks [117.93273337740442]
勾配勾配勾配は、exp(-Omega(log2 t))$収束率でトレーニングデータ上の一様マージン分類器に収束することを示す。
また、バッチ正規化はパッチワイドの均一なマージンに対して暗黙の偏りを持つことを示す。
論文 参考訳(メタデータ) (2023-06-20T16:58:00Z) - An Empirical Analysis of the Shift and Scale Parameters in BatchNorm [3.198144010381572]
Batch Normalization(BatchNorm)は、ディープニューラルネットワークのトレーニングを改善するテクニックである。
本稿では,正規化段階におけるBatchNormの成功に対する相対的貢献について検討する。
論文 参考訳(メタデータ) (2023-03-22T12:41:12Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Contrastive Neural Ratio Estimation for Simulation-based Inference [15.354874711988662]
Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。
バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持つ。
我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。
論文 参考訳(メタデータ) (2022-10-11T00:12:51Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Separating the Effects of Batch Normalization on CNN Training Speed and
Stability Using Classical Adaptive Filter Theory [40.55789598448379]
バッチ正規化(BatchNorm)は、トレーニング速度と安定性を改善するために、畳み込みニューラルネットワーク(CNN)で一般的に使用される。
本稿では、従来の適応フィルタ領域の概念を用いて、BatchNormの動的および内部動作に関する洞察を提供する。
論文 参考訳(メタデータ) (2020-02-25T05:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。