論文の概要: A Unified Framework for Soft Threshold Pruning
- arxiv url: http://arxiv.org/abs/2302.13019v1
- Date: Sat, 25 Feb 2023 08:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 19:25:15.922446
- Title: A Unified Framework for Soft Threshold Pruning
- Title(参考訳): ソフトしきい値プルーニングのための統一フレームワーク
- Authors: Yanqi Chen, Zhengyu Ma, Wei Fang, Xiawu Zheng, Zhaofei Yu, Yonghong
Tian
- Abstract要約: 反復収縮閾値アルゴリズム(ISTA)を用いた暗黙の最適化問題としてソフトしきい値プルーニングを再構成する。
我々は,フレームワークに基づくしきい値スケジューリングの詳細な研究を通じて,最適なしきい値スケジューラを導出する。
原理的には、導出プルーニングアルゴリズムは、SGDで訓練された任意の数学的モデルをスパース化することができる。
- 参考スコア(独自算出の注目度): 27.853698217792456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft threshold pruning is among the cutting-edge pruning methods with
state-of-the-art performance. However, previous methods either perform aimless
searching on the threshold scheduler or simply set the threshold trainable,
lacking theoretical explanation from a unified perspective. In this work, we
reformulate soft threshold pruning as an implicit optimization problem solved
using the Iterative Shrinkage-Thresholding Algorithm (ISTA), a classic method
from the fields of sparse recovery and compressed sensing. Under this
theoretical framework, all threshold tuning strategies proposed in previous
studies of soft threshold pruning are concluded as different styles of tuning
$L_1$-regularization term. We further derive an optimal threshold scheduler
through an in-depth study of threshold scheduling based on our framework. This
scheduler keeps $L_1$-regularization coefficient stable, implying a
time-invariant objective function from the perspective of optimization. In
principle, the derived pruning algorithm could sparsify any mathematical model
trained via SGD. We conduct extensive experiments and verify its
state-of-the-art performance on both Artificial Neural Networks (ResNet-50 and
MobileNet-V1) and Spiking Neural Networks (SEW ResNet-18) on ImageNet datasets.
On the basis of this framework, we derive a family of pruning methods,
including sparsify-during-training, early pruning, and pruning at
initialization. The code is available at https://github.com/Yanqi-Chen/LATS.
- Abstract(参考訳): ソフトしきい値プルーニングは最先端のプルーニング手法の1つである。
しかし、従来の手法では、しきい値スケジューラを目的なく探索するか、単にしきい値スケジューラを訓練可能とし、統一的な観点からの理論的な説明を欠いている。
本研究では,スパースリカバリと圧縮センシングの古典的手法である反復収縮閾値保持アルゴリズム(ISTA)を用いて,暗黙の最適化問題としてソフトしきい値プルーニングを再構成する。
この理論的枠組みの下では, 従来のソフトしきい値プルーニング研究で提案されたしきい値調整戦略は, L_1$-regularization 項の異なるスタイルで決定される。
さらに、我々のフレームワークに基づくしきい値スケジューリングの詳細な研究を通して、最適なしきい値スケジューラを導出する。
このスケジューラは$L_1$-regularization係数を安定に保ち、最適化の観点から時間不変の目的関数を意味する。
原理的には、導出プルーニングアルゴリズムは、SGDで訓練された任意の数学的モデルをスパース化することができる。
ニューラルネットワーク(resnet-50とmobilenet-v1)とspyking neural networks(sew resnet-18)の両方で、imagenetデータセット上で、その最先端のパフォーマンスを検証する。
この枠組みを基礎として,急激な乾燥訓練,早期刈り,初期化時の刈り込みなど,刈り込み手法のファミリーを導出する。
コードはhttps://github.com/Yanqi-Chen/LATSで公開されている。
関連論文リスト
- Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
我々は、高密度事前学習モデルの関数情報を利用して、アクティベーションのアライメントw.r.tを最大化するスパースモデルを得る。
我々は,アクティベーション間のニューロンアライメントを最大化するために,ブロックワイドと行ワイドの間隔比を変更するエンフェップアップアルゴリズムであるtextscNeuroAlを提案する。
提案手法は,4つの異なるLLMファミリーと3つの異なる空間比で検証し,最新の最先端技術よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - FALCON: FLOP-Aware Combinatorial Optimization for Neural Network Pruning [17.60353530072587]
ネットワークプルーニングは、性能を維持しながら、モデルサイズと計算コストを削減するソリューションを提供する。
現在のプルーニング法のほとんどは、非ゼロパラメータの数を減らし、空間性を改善することに重点を置いている。
本稿では,FALCONを提案する。FALCONは,モデル精度(忠実度),FLOP,スペーサ性制約を考慮に入れた,ネットワークプルーニングを最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T18:40:47Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Prospect Pruning: Finding Trainable Weights at Initialization using
Meta-Gradients [36.078414964088196]
初期化時にニューラルネットワークをプルーニングすることで、元のネットワークの精度を保ったスパースモデルを見つけることができる。
現在の方法は、この最適化を可能にするには不十分であり、モデル性能の大幅な低下につながります。
提案するProspect Pruning(ProsPr)は,最適化の最初の数ステップを通じてメタグラディエントを用いて,どの重み付けを行うかを決定する。
本手法は,従来のプルーニング・アット・初期化手法と比較して,データの少ない1ショットで,様々な視覚分類タスクにおける最先端のプルーニング性能を実現する。
論文 参考訳(メタデータ) (2022-02-16T15:18:55Z) - COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。
この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文 参考訳(メタデータ) (2021-07-27T08:48:01Z) - Only Train Once: A One-Shot Neural Network Training And Pruning
Framework [31.959625731943675]
構造化プルーニング(Structured pruning)は、リソース制約のあるデバイスにディープニューラルネットワーク(DNN)をデプロイする際に一般的に使用されるテクニックである。
我々は,DNNが競争性能と,OTO(Not-Train-Once)によるFLOPの大幅な削減に敏感なフレームワークを提案する。
OTOには2つのキーが含まれている: (i) DNNのパラメータをゼロ不変群に分割し、出力に影響を与えることなくゼロ群をプルークすることができる; (ii)ゼロ群をプロモートするために、構造化画像最適化アルゴリズムであるHalf-Space Projected (HSPG)を定式化する。
OTOの有効性を示すために、私たちはトレーニングとトレーニングを行います。
論文 参考訳(メタデータ) (2021-07-15T17:15:20Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。