論文の概要: Deep Neural Network Initialization with Sparsity Inducing Activations
- arxiv url: http://arxiv.org/abs/2402.16184v1
- Date: Sun, 25 Feb 2024 20:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:04:17.863304
- Title: Deep Neural Network Initialization with Sparsity Inducing Activations
- Title(参考訳): スパーシティ誘導活性化によるディープニューラルネットワーク初期化
- Authors: Ilan Price, Nicholas Daultry Ball, Samuel C.H. Lam, Adam C. Jones,
Jared Tanner
- Abstract要約: 広幅ガウス過程の限界を用いて、隠れ出力の空間性を引き起こす非線形活性化の挙動を解析する。
未報告のトレーニング不安定性は、隠蔽層スパリフィケーションの最も自然な候補の2つとして証明されている。
この不安定性は、関連するガウス過程の分散写像の形状によって規定されたレベルにおいて、非線形活性化度をクリップすることで克服されることを示す。
- 参考スコア(独自算出の注目度): 5.437298646956505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inducing and leveraging sparse activations during training and inference is a
promising avenue for improving the computational efficiency of deep networks,
which is increasingly important as network sizes continue to grow and their
application becomes more widespread. Here we use the large width Gaussian
process limit to analyze the behaviour, at random initialization, of nonlinear
activations that induce sparsity in the hidden outputs. A previously unreported
form of training instability is proven for arguably two of the most natural
candidates for hidden layer sparsification; those being a shifted ReLU
($\phi(x)=\max(0, x-\tau)$ for $\tau\ge 0$) and soft thresholding ($\phi(x)=0$
for $|x|\le\tau$ and $x-\text{sign}(x)\tau$ for $|x|>\tau$). We show that this
instability is overcome by clipping the nonlinear activation magnitude, at a
level prescribed by the shape of the associated Gaussian process variance map.
Numerical experiments verify the theory and show that the proposed magnitude
clipped sparsifying activations can be trained with training and test
fractional sparsity as high as 85\% while retaining close to full accuracy.
- Abstract(参考訳): トレーニングおよび推論中にスパースアクティベーションを誘導し活用することは、ディープネットワークの計算効率を向上させるための有望な方法であり、ネットワークサイズが成長し、そのアプリケーションがより広まるにつれて、ますます重要になる。
ここでは, 大幅ガウス過程極限を用いて, ランダム初期化時の非線形活性化の挙動を解析し, 隠れ出力のスパーシティを誘導する。
ReLU$\phi(x)=\max(0, x-\tau)$ for $\tau\ge 0$) and soft thresholding$\phi(x)=0$ for $|x|\le\tau$ and $x-\text{sign}(x)\tau$ for $|x|>\tau$である。
この不安定性は、関連するガウス過程の分散写像の形状によって所定のレベルで非線形活性化度をクリップすることで克服されることを示す。
数値実験により、この理論を検証し、提案する大きさのクリップススパース化アクティベーションをトレーニングし、完全な精度を維持しながら分数スパースシティを85\%までテストできることを示した。
関連論文リスト
- Efficient uniform approximation using Random Vector Functional Link
networks [0.0]
ランダムベクトル関数リンク(英: Random Vector Functional Link, RVFL)は、ランダムな内部ノードとバイアスを持つディープ2ニューラルネットワークである。
本稿では、ReLUアクティベートされたRVFLがLipschitzターゲット関数を近似できることを示す。
我々の証明法は理論と調和解析に根ざしている。
論文 参考訳(メタデータ) (2023-06-30T09:25:03Z) - Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training [0.0]
パラメータが$n=1014$を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$の振る舞いを研究することが極めて重要である。
広義のニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$nから+infty$制限に焦点を当てている。
この研究では、それらの振る舞いを大まかに研究するが、有限$n$である。
論文 参考訳(メタデータ) (2023-04-06T21:34:13Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - Householder Activations for Provable Robustness against Adversarial
Attacks [37.289891549908596]
l_2ノルムの下で厳密なリプシッツ制約を持つ畳み込みニューラルネットワーク(CNN)の訓練は、証明可能な対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
本稿では,学習可能な家事変換を用いた非線型GNPアクティベーションのクラスについて紹介する。
CIFAR-10 と CIFAR-100 を用いた実験により,mathrmHH$ 活性化による正規化ネットワークは,標準精度と信頼性の両面で有意な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-08-05T12:02:16Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - Fractional moment-preserving initialization schemes for training deep
neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-25T01:10:01Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。