論文の概要: Difference in Euclidean Norm Can Cause Semantic Divergence in Batch
Normalization
- arxiv url: http://arxiv.org/abs/2207.02625v1
- Date: Wed, 6 Jul 2022 12:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 12:52:35.201722
- Title: Difference in Euclidean Norm Can Cause Semantic Divergence in Batch
Normalization
- Title(参考訳): ユークリッドノルムの差異はバッチ正規化における意味的発散を引き起こす
- Authors: Zhennan Wang, Kehan Li, Runyi Yu, Yian Zhao, Pengchong Qiao, Guoli
Song, Fan Xu, Jie Chen
- Abstract要約: サンプルベクトルのユークリッドノルムを等化するための直観的だが効果的な方法を提案する。
提案手法は,$l$正規化とバッチ正規化を組み合わせたものであるので,本手法を$L$BNと命名する。
画像分類および音響シーン分類タスクにおいて,様々なモデルを用いた広範囲な実験により,$L$BNの有効性を評価する。
- 参考スコア(独自算出の注目度): 16.34645544678069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that the difference in Euclidean norm of samples can
make a contribution to the semantic divergence and even confusion, after the
spatial translation and scaling transformation in batch normalization. To
address this issue, we propose an intuitive but effective method to equalize
the Euclidean norms of sample vectors. Concretely, we $l_2$-normalize each
sample vector before batch normalization, and therefore the sample vectors are
of the same magnitude. Since the proposed method combines the $l_2$
normalization and batch normalization, we name our method as $L_2$BN. The
$L_2$BN can strengthen the compactness of intra-class features and enlarge the
discrepancy of inter-class features. In addition, it can help the gradient
converge to a stable scale. The $L_2$BN is easy to implement and can exert its
effect without any additional parameters and hyper-parameters. Therefore, it
can be used as a basic normalization method for neural networks. We evaluate
the effectiveness of $L_2$BN through extensive experiments with various models
on image classification and acoustic scene classification tasks. The
experimental results demonstrate that the $L_2$BN is able to boost the
generalization ability of various neural network models and achieve
considerable performance improvements.
- Abstract(参考訳): 本稿では, サンプルのユークリッドノルムの違いが, バッチ正規化における空間変換とスケーリング変換の後に, 意味のばらつきや混乱にも寄与することを示す。
この問題に対処するために,サンプルベクトルのユークリッドノルムを等化するための直感的だが効果的な手法を提案する。
具体的には、バッチ正規化の前に各サンプルベクトルを$l_2$-正規化するので、サンプルベクトルは同じ大きさである。
提案手法は,$l_2$正規化とバッチ正規化を組み合わせたものであるので,本手法を$L_2$BNと命名する。
l_2$bnはクラス内特徴のコンパクト性を強化し、クラス間特徴のばらつきを拡大することができる。
さらに、勾配が安定したスケールに収束するのに役立つ。
L_2$BNは実装が容易で、追加のパラメータやハイパーパラメータなしでその効果を発揮できる。
したがって、ニューラルネットワークの基本的な正規化手法として使用できる。
画像分類と音響シーン分類における様々なモデルを用いた広範囲な実験により,$L_2$BNの有効性を評価する。
実験の結果、$L_2$BNは様々なニューラルネットワークモデルの一般化能力を向上し、大幅な性能向上を達成できることが示された。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - spred: Solving $L_1$ Penalty with SGD [6.2255027793924285]
単純な再パラメータ化を用いて、$L_$で微分可能な目的を最小化することを提案する。
我々は、再パラメータ化のトリックが「完全に良性である」ことを証明する。
論文 参考訳(メタデータ) (2022-10-03T20:07:51Z) - Mirror Descent Maximizes Generalized Margin and Can Be Implemented
Efficiently [34.438887960077025]
p$-$textsfGD$が学習モデルの構造と一般化性能に顕著に影響を及ぼすことを示す。
また、$p$-$textsfGD$はSGDと同じ方法で完全に並列であり、ディープニューラルネットワークのトレーニングに使用できることを示す。
論文 参考訳(メタデータ) (2022-05-25T14:33:13Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - On the Generalization Power of Overfitted Two-Layer Neural Tangent
Kernel Models [42.72822331030195]
min $ell$-norm overfitting solution for the neural tangent kernel (NTK) model of a two-layer neural network. (英語)
本研究では, 地上真理関数に応じて, NTKモデルの試験誤差は, 「二重日射」と異なる特性を示すことを示した。
このクラス以外の関数に対しては、$n$ と $p$ の両方が大きかったとしても 0 に減少しない一般化エラーの低い境界を提供します。
論文 参考訳(メタデータ) (2021-03-09T06:24:59Z) - On the Adversarial Robustness of LASSO Based Feature Selection [72.54211869067979]
検討されたモデルでは、悪意のある敵がデータセット全体を観察し、レスポンス値やフィーチャーマトリックスを慎重に修正する。
両レベルの最適化問題として、敵の修正戦略を定式化する。
合成および実データを用いた数値的な例は,本手法が効率的かつ効果的であることを示している。
論文 参考訳(メタデータ) (2020-10-20T05:51:26Z) - Group Whitening: Balancing Learning Efficiency and Representational
Capacity [98.52552448012598]
グループホワイトニング(GW)は、ホワイトニング操作の利点を活用し、ミニバッチ内での正規化の欠点を回避する。
我々は、GWが異なるアーキテクチャのパフォーマンスを継続的に改善し、絶対的なゲインが$1.02%$$sim$1.49%$のImageNet上のトップ1精度と$1.82%$$$sim$$21%$のバウンディングボックスAPのCOCO上のバウンディングボックスAPであることを示した。
論文 参考訳(メタデータ) (2020-09-28T14:00:07Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。