論文の概要: Towards strong pruning for lottery tickets with non-zero biases
- arxiv url: http://arxiv.org/abs/2110.11150v1
- Date: Thu, 21 Oct 2021 13:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 02:37:59.491157
- Title: Towards strong pruning for lottery tickets with non-zero biases
- Title(参考訳): 非ゼロバイアスの抽選券の強力な刈り取りに向けて
- Authors: Jonas Fischer, Rebekka Burkholz
- Abstract要約: 宝くじの仮説は、ランダムに深いニューラルネットワークをプルーニングすることで、ディープラーニングに代わる効率的な代替手段が提供されることを約束している。
共通パラメータスキームと存在証明は、勾配バイアスがゼロのネットワークに焦点を当てている。
我々はこれらのスキームと存在証明を非ゼロバイアスに拡張し、ReLUアクティベーション関数に対する明示的な 'looks-linear' アプローチを含む。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The strong lottery ticket hypothesis holds the promise that pruning randomly
initialized deep neural networks could offer a computationally efficient
alternative to deep learning with stochastic gradient descent. Common parameter
initialization schemes and existence proofs, however, are focused on networks
with zero biases, thus foregoing the potential universal approximation property
of pruning. To fill this gap, we extend multiple initialization schemes and
existence proofs to non-zero biases, including explicit 'looks-linear'
approaches for ReLU activation functions. These do not only enable truly
orthogonal parameter initialization but also reduce potential pruning errors.
In experiments on standard benchmark data sets, we further highlight the
practical benefits of non-zero bias initialization schemes, and present
theoretically inspired extensions for state-of-the-art strong lottery ticket
pruning.
- Abstract(参考訳): 強力な抽選切符仮説は、ランダムに初期化されたディープニューラルネットワークを刈り取ることで、確率的勾配降下を伴うディープラーニングの計算効率の高い代替手段を提供できることを約束している。
しかし、共通パラメータ初期化スキームと存在証明はバイアスゼロのネットワークに焦点を当てており、プルーニングの潜在的な普遍的近似性の前兆となる。
このギャップを埋めるために、複数の初期化スキームと存在証明を非ゼロバイアスに拡張し、reluアクティベーション関数に対する明示的な「ルックス線形」アプローチを含む。
これらは真の直交パラメータ初期化を可能にするだけでなく、潜在的なプルーニングエラーを低減する。
標準ベンチマークデータセットを用いた実験では,非ゼロバイアス初期化スキームの実用的メリットをさらに強調するとともに,最先端の宝くじプルーニングのための理論的にインスパイアされた拡張を提案する。
関連論文リスト
- Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文 参考訳(メタデータ) (2023-06-20T16:40:41Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Dynamical Isometry for Residual Networks [8.21292084298669]
RISOTTO は ReLU 活性化機能を持つ残差ネットワークに対して, 有限深さ・幅でも完全な動的等尺性を実現することを示す。
実験では,FixupやSkipInitなど,バッチ正規化を廃止する手法よりも優れた手法が提案されている。
論文 参考訳(メタデータ) (2022-10-05T17:33:23Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - What needles do sparse neural networks find in nonlinear haystacks [0.0]
人工ニューラルネットワーク(ANN)におけるスパーシリティ誘導ペナルティは、特にノイズが高く、トレーニングセットが小さい状況において、過度な適合を避ける。
線形モデルの場合、そのようなアプローチは、適切なコセンのペナルティパラメータに対するレギュレーションにおいて高い確率で重要な特徴を確実に回復する。
簡単なモデルを用いてモンテカルロシミュレーションを行い,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2020-06-07T04:46:55Z) - Fractional moment-preserving initialization schemes for training deep
neural networks [1.14219428942199]
ディープニューラルネットワーク(DNN)に対する従来のアプローチは、プレアクティベーションの分散を保存するために、ランダムにネットワーク重みをサンプリングすることである。
本稿では,重み付き分布をモデル化することで,重み付けや事前活性化をモデル化できることを示す。
数値実験により,本手法が訓練および試験性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-05-25T01:10:01Z) - Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-26T17:15:53Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。