論文の概要: How Sparse Can We Prune A Deep Network: A Geometric Viewpoint
- arxiv url: http://arxiv.org/abs/2306.05857v1
- Date: Fri, 9 Jun 2023 12:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 13:29:32.944555
- Title: How Sparse Can We Prune A Deep Network: A Geometric Viewpoint
- Title(参考訳): 深層ネットワークをいかに疎結合にするか - 幾何学的視点から-
- Authors: Qiaozhe Zhang, Ruijie Zhang, Jun Sun, Yingzhuang Liu
- Abstract要約: 本稿では,一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
我々は,ガウス幅の計算における課題に対処するために,効率的な対策を提供する。
提案するプルーニングアルゴリズムは,既存のプルーニングアルゴリズムよりも競争力や性能が向上する。
- 参考スコア(独自算出の注目度): 5.172763028530302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterization constitutes one of the most significant hallmarks of
deep neural networks. Though it can offer the advantage of outstanding
generalization performance, it meanwhile imposes substantial storage burden,
thus necessitating the study of network pruning. A natural and fundamental
question is: How sparse can we prune a deep network (with almost no hurt on the
performance)? To address this problem, in this work we take a first principles
approach, specifically, by merely enforcing the sparsity constraint on the
original loss function, we're able to characterize the sharp phase transition
point of pruning ratio, which corresponds to the boundary between the feasible
and the infeasible, from the perspective of high-dimensional geometry. It turns
out that the phase transition point of pruning ratio equals the squared
Gaussian width of some convex body resulting from the $l_1$-regularized loss
function, normalized by the original dimension of parameters. As a byproduct,
we provide a novel network pruning algorithm which is essentially a global
one-shot pruning one. Furthermore, we provide efficient countermeasures to
address the challenges in computing the involved Gaussian width, including the
spectrum estimation of a large-scale Hessian matrix and dealing with the
non-definite positiveness of a Hessian matrix. It is demonstrated that the
predicted pruning ratio threshold coincides very well with the actual value
obtained from the experiments and our proposed pruning algorithm can achieve
competitive or even better performance than the existing pruning algorithms.
All codes are available at:
https://github.com/QiaozheZhang/Global-One-shot-Pruning
- Abstract(参考訳): 過剰パラメータ化はディープニューラルネットワークの最も重要な特徴の1つである。
優れた一般化性能の利点を享受できるが、同時にかなりの記憶負荷を課し、ネットワークプルーニングの研究を必要とする。
根本的かつ自然な疑問は: ディープネットワーク(パフォーマンスにほとんど害を加えることなく)をいかにスパースにできるのか?
この問題に対処するために、本研究では、第一原理のアプローチ、具体的には、元の損失関数にスパーシティ制約を強制することによって、高次元幾何学の観点から、実現不可能と実行不可能の境界に対応するプラニング比の鋭い位相遷移点を特徴付けることができる。
プルーニング比の位相遷移点は、パラメータの原次元によって正規化される$l_1$-正則化損失関数から生じる凸体の正方形ガウス幅と等しいことが判明した。
副産物として、我々は本質的にグローバルなワンショットプルーニングアルゴリズムである新しいネットワークプルーニングアルゴリズムを提供する。
さらに,大規模ヘッセン行列のスペクトル推定やヘッセン行列の非定値正の処理など,関連するガウス幅の計算における課題に対処するための効率的な対策も提供する。
予測プルーニング比の閾値は実験から得られた実際の値と非常によく一致し,提案プルーニングアルゴリズムは既存のプルーニングアルゴリズムよりも競争力や性能を向上できることを示した。
https://github.com/QiaozheZhang/Global-One-shot-Pruning
関連論文リスト
- Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression [4.297070083645049]
我々は、完全連結ネットワークの被覆数に対して、(乗法定数まで)下限と上限を密に展開する。
境界の厳密さにより、疎度、量子化、有界対非有界重み、およびネットワーク出力トランケーションの影響の根本的な理解が展開できる。
論文 参考訳(メタデータ) (2024-10-08T21:23:14Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - The Future is Log-Gaussian: ResNets and Their Infinite-Depth-and-Width
Limit at Initialization [18.613475245655806]
ReLU ResNets in the infinite-depth-and-width limit, where both depth and width tend to infinity as their ratio, $d/n$。
モンテカルロシミュレーションを用いて、標準ResNetアーキテクチャの基本的な性質でさえガウス極限で十分に捉えられていないことを示した。
論文 参考訳(メタデータ) (2021-06-07T23:47:37Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - On the Predictability of Pruning Across Scales [29.94870276983399]
等級決定ネットワークの誤差は、アーキテクチャやタスクに依存する解釈可能な係数を持つスケーリング法則を経験的に従うことを示す。
ニューラルネットワークがより大きく、訓練にコストがかかるようになるにつれて、我々の発見は、非構造化プルーニングの標準的な方法に関する概念的かつ分析的な推論の枠組みを示唆している。
論文 参考訳(メタデータ) (2020-06-18T15:41:46Z) - Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。
我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。
実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-02-12T05:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。