論文の概要: Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness
- arxiv url: http://arxiv.org/abs/2309.03004v1
- Date: Wed, 6 Sep 2023 13:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:26:18.467252
- Title: Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness
- Title(参考訳): フラットミニマと対向ロバスト性による活性化空間の理論的説明
- Authors: Ze Peng, Lei Qi, Yinghuan Shi, Yang Gao
- Abstract要約: 層内の活性化空間の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
いくつかの研究が力学の訓練に寄与しているが、活性化空間の出現の理論的な説明は浅いネットワークに限られている。
本稿では、活性化空間の源泉としての空間性の概念とそれに基づく理論的説明を提案する。
- 参考スコア(独自算出の注目度): 29.87592869483743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent empirical observation of activation sparsity in MLP layers offers an
opportunity to drastically reduce computation costs for free. Despite several
works attributing it to training dynamics, the theoretical explanation of
activation sparsity's emergence is restricted to shallow networks, small
training steps well as modified training, even though the sparsity has been
found in deep models trained by vanilla protocols for large steps. To fill the
three gaps, we propose the notion of gradient sparsity as the source of
activation sparsity and a theoretical explanation based on it that explains
gradient sparsity and then activation sparsity as necessary steps to
adversarial robustness w.r.t. hidden features and parameters, which is
approximately the flatness of minima for well-learned models. The theory
applies to standardly trained LayerNorm-ed pure MLPs, and further to
Transformers or other architectures if noises are added to weights during
training. To eliminate other sources of flatness when arguing sparsities'
necessity, we discover the phenomenon of spectral concentration, i.e., the
ratio between the largest and the smallest non-zero singular values of weight
matrices is small. We utilize random matrix theory (RMT) as a powerful
theoretical tool to analyze stochastic gradient noises and discuss the
emergence of spectral concentration. With these insights, we propose two
plug-and-play modules for both training from scratch and sparsity finetuning,
as well as one radical modification that only applies to from-scratch training.
Another under-testing module for both sparsity and flatness is also immediate
from our theories. Validational experiments are conducted to verify our
explanation. Experiments for productivity demonstrate modifications'
improvement in sparsity, indicating further theoretical cost reduction in both
training and inference.
- Abstract(参考訳): MLP層の活性化空間の最近の経験的観察は、無料の計算コストを大幅に削減する機会を提供する。
いくつかの研究が力学の訓練に寄与しているが、アクティベーション空間の出現の理論的な説明は浅いネットワーク、小さなトレーニングステップ、そして修正されたトレーニングに限られている。
この3つのギャップを埋めるため,我々は勾配スパーシティの概念を活性化スパーシティの源として提案し,それに基づく理論的説明として,勾配スパーシティとそれに続く活性化スパーシティを,敵対的ロバストネスのために必要なステップとして,w.r.t. 隠れた特徴とパラメータとして説明する。
この理論は、標準的に訓練されたLayerNormベースの純粋なMLPや、トレーニング中に重み付けにノイズを加える場合のトランスフォーマーや他のアーキテクチャにも適用される。
空間性の必要性を議論する際の他の平坦性源を排除するため、スペクトル濃度の現象、すなわち重量行列の最大値と最小値の非ゼロ特異値との比が小さいことを発見した。
確率的勾配雑音を解析し、スペクトル集中の出現について議論するための強力な理論ツールとしてランダム行列理論(RMT)を用いる。
これらの知見により,スクラッチとスパーシティの微調整からトレーニングを行うための2つのプラグイン・アンド・プレイモジュールと,スクラッチ外のトレーニングにのみ適用される1つの根本的な修正を提案する。
スパルシリティと平坦性の両方に対する別のテスト対象モジュールも、我々の理論からすぐに得られます。
我々の説明を検証するために検証実験を行った。
生産性に関する実験は、空間性の改善を実証し、トレーニングと推論の両方におけるさらなる理論的コスト削減を示している。
関連論文リスト
- Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Learning Neural Networks with Sparse Activations [42.88109060676769]
変圧器ネットワークでは、このブロックの隠された層における活性化は、任意の入力に対して非常に緩い傾向にある。
ネットワークから除去できるニューロンやウェイトが存在する従来のスペーシリティとは異なり、このエムアクティベーションのスペーシリティは利用するのが困難である。
関数のクラスが証明可能な計算と統計上の優位性をもたらすことを示す様々な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T00:11:13Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - Compact Model Training by Low-Rank Projection with Energy Transfer [13.446719541044663]
低ランクは従来の機械学習において重要な役割を果たすが、ディープラーニングではそれほど人気がない。
従来の低ランクネットワーク圧縮手法は、事前学習されたモデルと再学習を近似してネットワークを圧縮する。
我々は、低ランク圧縮ネットワークをスクラッチからトレーニングし、競争性能を向上する新しいトレーニング手法、低ランク投射とエネルギー伝達を考案した。
論文 参考訳(メタデータ) (2022-04-12T06:53:25Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Autocalibration and Tweedie-dominance for Insurance Pricing with Machine
Learning [0.0]
逸脱の最小化には, 下位部分モーメントの重み付き差分の積分と, 特定のスケールで測定されたバイアスとのトレードオフが伴うことが示された。
バイアスを補正する新しい手法は、分析にさらに局所的なGLMステップを追加する。
凸順序は、競合するモデルを比較する自然なツールであるように見える。
論文 参考訳(メタデータ) (2021-03-05T12:40:30Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。