論文の概要: How Sparse Can We Prune A Deep Network: A Fundamental Limit Viewpoint
- arxiv url: http://arxiv.org/abs/2306.05857v2
- Date: Wed, 21 Feb 2024 08:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:06:13.109375
- Title: How Sparse Can We Prune A Deep Network: A Fundamental Limit Viewpoint
- Title(参考訳): 深層ネットワークを創り出すにはどうすればいいのか:基本的な限界視点
- Authors: Qiaozhe Zhang, Ruijie Zhang, Jun Sun, Yingzhuang Liu
- Abstract要約: ネットワークプルーニングは、ディープニューラルネットワークの記憶と計算の負担を軽減する効果的な手段である。
我々は、第一原理的アプローチ、すなわち、元の損失関数に空間的制約を課す。
刈り取り比の限界を決定する2つの要因を同定する。
- 参考スコア(独自算出の注目度): 3.7575861326462845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network pruning is an effective measure to alleviate the storage and
computational burden of deep neural networks arising from its high
overparameterization. Thus raises a fundamental question: How sparse can we
prune a deep network without sacrifice on the performance? To address this
problem, in this work we'll take a first principles approach, i.e. we directly
impose the sparsity constraint on the original loss function and then
characterize the necessary and sufficient condition of the sparsity
(\textit{which turns out to nearly coincide}) by leveraging the notion of
\textit{statistical dimension} in convex geometry. Through this fundamental
limit, we're able to identify two key factors that determine the pruning ratio
limit, i.e., weight magnitude and network flatness. Generally speaking, the
flatter the loss landscape or the smaller the weight magnitude, the smaller
pruning ratio. In addition, we provide efficient countermeasures to address the
challenges in computing the pruning limit, which involves accurate spectrum
estimation of a large-scale and non-positive Hessian matrix. Moreover, through
the lens of the pruning ratio threshold, we can provide rigorous
interpretations on several heuristics in existing pruning algorithms. Extensive
experiments are performed that demonstrate that the our theoretical pruning
ratio threshold coincides very well with the experiments. All codes are
available at: https://github.com/QiaozheZhang/Global-One-shot-Pruning
- Abstract(参考訳): ネットワークプルーニングは、高過パラメータ化に起因するディープニューラルネットワークのストレージと計算負荷を軽減する効果的な手段である。
パフォーマンスを犠牲にすることなく、ディープネットワークをいかにスパースにできるのか?
この問題に対処するために、本研究では、最初の原理的アプローチ、すなわち、元の損失関数に直接スパーシティ制約を課し、凸幾何学における \textit{statistical dimension} の概念を利用して、スパーシティの必要十分条件(\textit{ which turns to almost coincide})を特徴付ける。
この基本的な限界を通じて、プルーニング比の限界を決定する2つの重要な要因、すなわち、重み度とネットワーク平坦度を特定できる。
概して、損失景観が平坦であるほど、あるいは重量の大きさが小さくなるほど、刈り取り比率が小さくなる。
さらに,大規模かつ非正のヘッセン行列の正確なスペクトル推定を含むプルーニング限界計算の課題に対処するための効率的な対策も提供する。
さらに、プルーニング比閾値のレンズを通して、既存のプルーニングアルゴリズムにおけるいくつかのヒューリスティックスに関する厳密な解釈を提供することができる。
我々の理論的なプルーニング比の閾値が実験と非常によく一致することを示す大規模な実験が行われた。
https://github.com/QiaozheZhang/Global-One-shot-Pruning
関連論文リスト
- Covering Numbers for Deep ReLU Networks with Applications to Function Approximation and Nonparametric Regression [4.297070083645049]
我々は、完全連結ネットワークの被覆数に対して、(乗法定数まで)下限と上限を密に展開する。
境界の厳密さにより、疎度、量子化、有界対非有界重み、およびネットワーク出力トランケーションの影響の根本的な理解が展開できる。
論文 参考訳(メタデータ) (2024-10-08T21:23:14Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - The Future is Log-Gaussian: ResNets and Their Infinite-Depth-and-Width
Limit at Initialization [18.613475245655806]
ReLU ResNets in the infinite-depth-and-width limit, where both depth and width tend to infinity as their ratio, $d/n$。
モンテカルロシミュレーションを用いて、標準ResNetアーキテクチャの基本的な性質でさえガウス極限で十分に捉えられていないことを示した。
論文 参考訳(メタデータ) (2021-06-07T23:47:37Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - On the Predictability of Pruning Across Scales [29.94870276983399]
等級決定ネットワークの誤差は、アーキテクチャやタスクに依存する解釈可能な係数を持つスケーリング法則を経験的に従うことを示す。
ニューラルネットワークがより大きく、訓練にコストがかかるようになるにつれて、我々の発見は、非構造化プルーニングの標準的な方法に関する概念的かつ分析的な推論の枠組みを示唆している。
論文 参考訳(メタデータ) (2020-06-18T15:41:46Z) - Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。
我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。
実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-02-12T05:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。