論文の概要: A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2309.03004v3
- Date: Fri, 13 Oct 2023 13:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:16:37.034978
- Title: A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness
- Title(参考訳): フラットミニマと対向ロバスト性による活性化空間の理論的説明
- Authors: Ze Peng, Lei Qi, Yinghuan Shi, Yang Gao
- Abstract要約: ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
- 参考スコア(独自算出の注目度): 29.87592869483743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent empirical observation (Li et al., 2022b) of activation sparsity in
MLP blocks offers an opportunity to drastically reduce computation costs for
free. Although having attributed it to training dynamics, existing theoretical
explanations of activation sparsity are restricted to shallow networks, small
training steps and special training, despite its emergence in deep models
standardly trained for a large number of steps. To fill these gaps, we propose
the notion of gradient sparsity as one source of activation sparsity and a
theoretical explanation based on it that sees sparsity a necessary step to
adversarial robustness w.r.t. hidden features and parameters, which is
approximately the flatness of minima for well-learned models. The theory
applies to standardly trained LayerNorm-ed MLPs, and further to Transformers or
other architectures trained with weight noises. Eliminating other sources of
flatness except for sparsity, we discover the phenomenon that the ratio between
the largest and smallest non-zero singular values of weight matrices is small.
When discussing the emergence of this spectral concentration, we use random
matrix theory (RMT) as a powerful tool to analyze stochastic gradient noises.
Validational experiments are conducted to verify our gradient-sparsity-based
explanation. We propose two plug-and-play modules for both training and
finetuning for sparsity. Experiments on ImageNet-1k and C4 demonstrate their
50% sparsity improvements, indicating further potential cost reduction in both
training and inference.
- Abstract(参考訳): 近年のMLPブロックにおける活性化間隔のLi et al., 2022bは, 計算コストを大幅に削減する機会となっている。
アクティベーションスパーシティの既存の理論的な説明は、トレーニングダイナミクスによるものであるが、多くのステップで標準的に訓練された深層モデルに出現したにもかかわらず、浅いネットワーク、小さなトレーニングステップ、特別なトレーニングに限定されている。
これらのギャップを埋めるために、勾配空間を活性化空間の1つの源とする概念とそれに基づく理論的な説明を提案する。これは、よく学習されたモデルにおけるミニマの平坦さを概ね表すような、隠れた特徴やパラメータに逆らうための必要なステップである。
この理論は標準的に訓練されたLayerNorm-ed MLPや、ウェイトノイズで訓練されたトランスフォーマーや他のアーキテクチャにも適用される。
また, 重み行列の非零特異値の最大値と最小値の比率が小さいことを発見した。
このスペクトル集中の出現について論じる際、確率的勾配雑音を解析するための強力なツールとしてランダム行列理論(RMT)を用いる。
勾配スパーシティーに基づく説明を検証するための検証実験を行った。
本稿では2つのプラグ・アンド・プレイ・モジュールを提案する。
imagenet-1kとc4の実験では、50%のスパース性が改善され、トレーニングと推論の両方でさらなるコスト削減が期待できる。
関連論文リスト
- Learning Neural Networks with Sparse Activations [42.88109060676769]
変圧器ネットワークでは、このブロックの隠された層における活性化は、任意の入力に対して非常に緩い傾向にある。
ネットワークから除去できるニューロンやウェイトが存在する従来のスペーシリティとは異なり、このエムアクティベーションのスペーシリティは利用するのが困難である。
関数のクラスが証明可能な計算と統計上の優位性をもたらすことを示す様々な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T00:11:13Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Compact Model Training by Low-Rank Projection with Energy Transfer [13.446719541044663]
低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。
従来の低ランクネットワーク圧縮手法は、事前学習されたモデルと再学習を近似してネットワークを圧縮する。
我々は、低ランク圧縮ネットワークをスクラッチからトレーニングし、競争性能を向上する新しいトレーニング手法、低ランク投射とエネルギー伝達を考案した。
論文 参考訳(メタデータ) (2022-04-12T06:53:25Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Autocalibration and Tweedie-dominance for Insurance Pricing with Machine
Learning [0.0]
逸脱の最小化には, 下位部分モーメントの重み付き差分の積分と, 特定のスケールで測定されたバイアスとのトレードオフが伴うことが示された。
バイアスを補正する新しい手法は、分析にさらに局所的なGLMステップを追加する。
凸順序は、競合するモデルを比較する自然なツールであるように見える。
論文 参考訳(メタデータ) (2021-03-05T12:40:30Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。