論文の概要: Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency
Modeling
- arxiv url: http://arxiv.org/abs/2107.00070v1
- Date: Wed, 30 Jun 2021 19:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:57:41.007610
- Title: Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency
Modeling
- Title(参考訳): dep-$l_0$:依存性モデリングによる$l_0$ベースのネットワークスパーシフィケーションの改善
- Authors: Yang Li and Shihao Ji
- Abstract要約: L_0$正規化によるディープニューラルネットワークのトレーニングは、ネットワークプルーニングやスパシフィケーションの顕著なアプローチのひとつだ。
本稿では,ImageNet上のResNet50のような大規模学習タスクに対して一貫性のない処理を行うことを示す。
本稿では,多層パーセプトロンとして効果的にモデル化できるバイナリゲートの依存性モデリングを提案する。
- 参考スコア(独自算出の注目度): 6.081082481356211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks with an $L_0$ regularization is one of the
prominent approaches for network pruning or sparsification. The method prunes
the network during training by encouraging weights to become exactly zero.
However, recent work of Gale et al. reveals that although this method yields
high compression rates on smaller datasets, it performs inconsistently on
large-scale learning tasks, such as ResNet50 on ImageNet. We analyze this
phenomenon through the lens of variational inference and find that it is likely
due to the independent modeling of binary gates, the mean-field approximation,
which is known in Bayesian statistics for its poor performance due to the crude
approximation. To mitigate this deficiency, we propose a dependency modeling of
binary gates, which can be modeled effectively as a multi-layer perceptron
(MLP). We term our algorithm Dep-$L_0$ as it prunes networks via a
dependency-enabled $L_0$ regularization. Extensive experiments on CIFAR10,
CIFAR100 and ImageNet with VGG16, ResNet50, ResNet56 show that our Dep-$L_0$
outperforms the original $L_0$-HC algorithm of Louizos et al. by a significant
margin, especially on ImageNet. Compared with the state-of-the-arts network
sparsification algorithms, our dependency modeling makes the $L_0$-based
sparsification once again very competitive on large-scale learning tasks. Our
source code is available at https://github.com/leo-yangli/dep-l0.
- Abstract(参考訳): L_0$正規化によるディープニューラルネットワークのトレーニングは、ネットワークプルーニングやスパシフィケーションの顕著なアプローチのひとつだ。
この方法はトレーニング中に重みを全くゼロにすることでネットワークを損なう。
しかし、gale et alの最近の作品。
この方法は小さなデータセットで高い圧縮率をもたらすが、imagenet上のresnet50のような大規模学習タスクでは一貫性がない。
本稿では,この現象を変分推論のレンズを用いて解析し,粗近似による性能の低下からベイズ統計において知られている平均場近似であるバイナリゲートの独立なモデリングによるものと考えられる。
この欠損を緩和するために,多層パーセプトロン (MLP) として効果的にモデル化できるバイナリゲートの依存性モデリングを提案する。
我々は、依存可能な$L_0$正規化によってネットワークを創り出すアルゴリズムをDep-$L_0$と呼ぶ。
CIFAR10, CIFAR100, ImageNet with VGG16, ResNet50, ResNet56の大規模な実験によると、当社のDep-$L_0$は、Louizosらのオリジナルの$L_0$-HCアルゴリズムより優れている。
特にImageNetでは、かなりの差がある。
最先端のネットワークスペーシフィケーションアルゴリズムと比較して、我々の依存性モデリングは、大規模学習タスクにおいて再び、$L_0$ベースのスペーシフィケーションを実現する。
ソースコードはhttps://github.com/leo-yangli/dep-l0で入手できます。
関連論文リスト
- On the Convergence of Federated Averaging under Partial Participation for Over-parameterized Neural Networks [13.2844023993979]
フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアントから機械学習モデルを協調的に作成するための分散パラダイムである。
本稿では,FedAvgが世界規模で世界規模で収束していることを示す。
論文 参考訳(メタデータ) (2023-10-09T07:56:56Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Algorithms for Efficiently Learning Low-Rank Neural Networks [12.916132936159713]
低ランクニューラルネットワークの学習アルゴリズムについて検討する。
単層ReLUネットワークに最適な低ランク近似を学習するアルゴリズムを提案する。
低ランク$textitdeep$ネットワークをトレーニングするための新しい低ランクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-02T01:08:29Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。
とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文 参考訳(メタデータ) (2020-03-30T12:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。