論文の概要: DiffPrune: Neural Network Pruning with Deterministic Approximate Binary
Gates and $L_0$ Regularization
- arxiv url: http://arxiv.org/abs/2012.03653v2
- Date: Sat, 6 Mar 2021 06:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 09:17:28.497167
- Title: DiffPrune: Neural Network Pruning with Deterministic Approximate Binary
Gates and $L_0$ Regularization
- Title(参考訳): DiffPrune: 決定論的近似バイナリゲートと$L_0$正規化によるニューラルネットワークのプルーニング
- Authors: Yaniv Shulman
- Abstract要約: 現代のニューラルネットワークアーキテクチャは通常、数百万のパラメータを持ち、有効性を著しく損なうことなく、大幅に刈り取ることができる。
この作品の貢献は2つある。
1つ目は、任意の実数値確率変数の決定論的かつ微分可能変換によって多変量ベルヌーイ確率変数を近似する方法である。
2つ目は、決定論的あるいは乗法的に計算され、正確なゼロ値を取る近似二進ゲートを持つ要素的パラメータによるモデル選択の方法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural network architectures typically have many millions of
parameters and can be pruned significantly without substantial loss in
effectiveness which demonstrates they are over-parameterized. The contribution
of this work is two-fold. The first is a method for approximating a
multivariate Bernoulli random variable by means of a deterministic and
differentiable transformation of any real-valued multivariate random variable.
The second is a method for model selection by element-wise multiplication of
parameters with approximate binary gates that may be computed deterministically
or stochastically and take on exact zero values. Sparsity is encouraged by the
inclusion of a surrogate regularization to the $L_0$ loss. Since the method is
differentiable it enables straightforward and efficient learning of model
architectures by an empirical risk minimization procedure with stochastic
gradient descent and theoretically enables conditional computation during
training. The method also supports any arbitrary group sparsity over parameters
or activations and therefore offers a framework for unstructured or flexible
structured model pruning. To conclude experiments are performed to demonstrate
the effectiveness of the proposed approach.
- Abstract(参考訳): 現代のニューラルネットワークアーキテクチャは通常、数百万のパラメータを持ち、パラメータが過度にパラメータ化されていることを示す効果を著しく損なうことなく、大幅に刈り取ることができる。
この作品の貢献は2つある。
1つ目は、任意の実値多変量確率変数の決定論的かつ微分可能変換によって多変量ベルヌーイ確率変数を近似する方法である。
2つ目は、決定論的あるいは確率的に計算され、正確なゼロ値を取る近似二進ゲートを持つパラメータの要素的に乗算によるモデル選択の方法である。
スパーシティは、$l_0$の損失に代理正規化を含めることによって奨励される。
本手法は,確率的勾配降下を伴う経験的リスク最小化法により,モデルアーキテクチャの簡易かつ効率的な学習を可能にし,理論的には訓練中の条件計算を可能にする。
このメソッドはパラメータやアクティベーションよりも任意のグループスパルシティをサポートするので、非構造化または柔軟な構造化モデルプルーニングのフレームワークを提供する。
提案手法の有効性を実証するために実験を行った。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Robust scalable initialization for Bayesian variational inference with
multi-modal Laplace approximations [0.0]
フル共分散構造を持つ変分混合は、パラメータ数による変動パラメータによる二次的な成長に苦しむ。
本稿では,変分推論のウォームスタートに使用できる初期ガウスモデル近似を構築する方法を提案する。
論文 参考訳(メタデータ) (2023-07-12T19:30:04Z) - Structured model selection via $\ell_1-\ell_2$ optimization [1.933681537640272]
構造化力学系を同定する学習手法を開発した。
候補関数の集合が有界系を成すとき、その回復は安定で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-27T12:51:26Z) - Scalable and adaptive variational Bayes methods for Hawkes processes [4.580983642743026]
本稿では,スペーサ性誘導法を提案し,一般的なシグモイドホークスプロセスに対する適応平均場変動アルゴリズムを導出する。
我々のアルゴリズムは並列性があり、したがって高次元設定では計算効率がよい。
論文 参考訳(メタデータ) (2022-12-01T05:35:32Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Causality-based Counterfactual Explanation for Classification Models [11.108866104714627]
本稿では,プロトタイプに基づく対実的説明フレームワーク(ProCE)を提案する。
ProCEは、カウンターファクトデータの特徴の根底にある因果関係を保存することができる。
さらに,提案手法を応用した多目的遺伝的アルゴリズムを考案した。
論文 参考訳(メタデータ) (2021-05-03T09:25:59Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Generalized Gumbel-Softmax Gradient Estimator for Various Discrete
Random Variables [16.643346012854156]
ノードの勾配を評価することは、深層生成モデリングコミュニティにおいて重要な研究課題の1つである。
本稿では,連続緩和を伴うGumbel-Softmax推定器の一般バージョンを提案する。
論文 参考訳(メタデータ) (2020-03-04T01:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。