論文の概要: Preserving Deep Representations In One-Shot Pruning: A Hessian-Free Second-Order Optimization Framework
- arxiv url: http://arxiv.org/abs/2411.18376v1
- Date: Wed, 27 Nov 2024 14:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:53.330039
- Title: Preserving Deep Representations In One-Shot Pruning: A Hessian-Free Second-Order Optimization Framework
- Title(参考訳): ワンショットプルーニングにおける深部表現の保存:ヘッセン自由二階最適化フレームワーク
- Authors: Ryan Lucas, Rahul Mazumder,
- Abstract要約: SNOWSは、再トレーニングをせずに視覚ネットワーク推論のコストを削減することを目的とした、一発の訓練後プルーニングフレームワークである。
我々のフレームワークの重要な革新は、完全にヘッセン行列を計算したり保存したりすることなく、ヘッセン自由最適化を用いてニュートン降下ステップを正確に計算することである。
- 参考スコア(独自算出の注目度): 12.331056472174275
- License:
- Abstract: We present SNOWS, a one-shot post-training pruning framework aimed at reducing the cost of vision network inference without retraining. Current leading one-shot pruning methods minimize layer-wise least squares reconstruction error which does not take into account deeper network representations. We propose to optimize a more global reconstruction objective. This objective accounts for nonlinear activations deep in the network to obtain a better proxy for the network loss. This nonlinear objective leads to a more challenging optimization problem -- we demonstrate it can be solved efficiently using a specialized second-order optimization framework. A key innovation of our framework is the use of Hessian-free optimization to compute exact Newton descent steps without needing to compute or store the full Hessian matrix. A distinct advantage of SNOWS is that it can be readily applied on top of any sparse mask derived from prior methods, readjusting their weights to exploit nonlinearities in deep feature representations. SNOWS obtains state-of-the-art results on various one-shot pruning benchmarks including residual networks and Vision Transformers (ViT/B-16 and ViT/L-16, 86m and 304m parameters respectively).
- Abstract(参考訳): SNOWSは、再トレーニングをせずに視覚ネットワーク推論のコストを削減することを目的とした、一発の訓練後プルーニングフレームワークである。
現在のリードワンショットプルーニング手法は、より深いネットワーク表現を考慮していないレイヤワイズ最小2乗再構成誤差を最小限に抑える。
我々は、よりグローバルな再構築目標を最適化することを提案する。
この目的はネットワークの奥深くで非線形なアクティベーションを考慮し、ネットワーク損失に対するより良いプロキシを得る。
この非線形目的は、より困難な最適化問題につながる。我々は、特別な2階最適化フレームワークを使用して効率的に解決できることを実証する。
我々のフレームワークの重要な革新は、完全にヘッセン行列を計算したり保存したりすることなく、ヘッセン自由最適化を用いてニュートン降下ステップを正確に計算することである。
SNOWSの際立った利点は、より深い特徴表現の非線形性を利用するために、従来の手法から派生したスパースマスクの上に容易に適用できることである。
SNOWSは、残差ネットワークやビジョントランスフォーマー(ViT/B-16、ViT/L-16、86m、304mパラメータ)を含む様々なワンショットプルーニングベンチマークの最先端結果を得る。
関連論文リスト
- Pruning Convolutional Filters via Reinforcement Learning with Entropy
Minimization [0.0]
本稿では,畳み込み活性化の空間エントロピーを最小化する情報理論報酬関数を提案する。
提案手法は,エージェントの報酬関数で直接最適化することなく,精度を維持できる可能性を示している。
論文 参考訳(メタデータ) (2023-12-08T09:34:57Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Learning Sparse and Low-Rank Priors for Image Recovery via Iterative
Reweighted Least Squares Minimization [12.487990897680422]
本稿では,学習されたスパース制約と低ランク制約下での画像復元のための新しい最適化アルゴリズムを提案する。
提案アルゴリズムは、信号回復に使用されるIRLS(Iteratively Reweighted Least Squares)法を一般化する。
我々の再建結果は競争力が高く、多くの場合、既存の未登録ネットワークよりも優れています。
論文 参考訳(メタデータ) (2023-04-20T17:59:45Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Singular Value Perturbation and Deep Network Optimization [29.204852309828006]
我々は,行列摂動に関する新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響について光を当てる。
特に,ディープラーニング実践者が長年経験してきたことを説明する。深層アーキテクチャのパラメータは,他よりも容易に最適化できる。
摂動結果の直接的な応用は、ResNetがConvNetよりも簡単に最適化できる理由を解析的に説明します。
論文 参考訳(メタデータ) (2022-03-07T02:09:39Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。