論文の概要: SPDY: Accurate Pruning with Speedup Guarantees
- arxiv url: http://arxiv.org/abs/2201.13096v1
- Date: Mon, 31 Jan 2022 10:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 23:39:52.867516
- Title: SPDY: Accurate Pruning with Speedup Guarantees
- Title(参考訳): SPDY: スピードアップ保証による正確なプルーニング
- Authors: Elias Frantar and Dan Alistarh
- Abstract要約: SPDYは、所望の推論スピードアップを達成するために、レイヤーワイドのスパシティターゲットを自動的に決定する新しい圧縮手法である。
また,SPDYは,ワンショットおよび段階的なプルーニングシナリオにおいて,既存の戦略と比較して高い精度を回復しつつ,スピードアップを保証していることを示す。
また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
- 参考スコア(独自算出の注目度): 29.284147465251685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent focus on the efficiency of deep neural networks (DNNs) has led to
significant work on model compression approaches, of which weight pruning is
one of the most popular. At the same time, there is rapidly-growing
computational support for efficiently executing the unstructured-sparse models
obtained via pruning. Yet, most existing pruning methods minimize just the
number of remaining weights, i.e. the size of the model, rather than optimizing
for inference time. We address this gap by introducing SPDY, a new compression
method which automatically determines layer-wise sparsity targets achieving a
desired inference speedup on a given system, while minimizing accuracy loss.
SPDY is composed of two new techniques: the first is an efficient dynamic
programming algorithm for solving the speedup-constrained layer-wise
compression problem assuming a set of given layer-wise sensitivity scores; the
second is a local search procedure for determining accurate layer-wise
sensitivity scores. Experiments across popular vision and language models show
that SPDY guarantees speedups while recovering higher accuracy relative to
existing strategies, both for one-shot and gradual pruning scenarios, and is
compatible with most existing pruning approaches. We also extend our approach
to the recently-proposed task of pruning with very little data, where we
achieve the best known accuracy recovery when pruning to the GPU-supported 2:4
sparsity pattern.
- Abstract(参考訳): 近年、ディープニューラルネットワーク(DNN)の効率性に焦点が当てられていることで、モデルの圧縮アプローチに大きな研究が生まれている。
同時に、プルーニングによって得られた非構造化スパースモデルを効率的に実行するための高速な計算支援がある。
しかし、既存のプルーニング手法のほとんどは、推論時間に最適化するのではなく、モデルのサイズなど、残りの重みの数を最小にするだけである。
SPDYは,所定のシステム上で所望の推論速度アップを達成し,精度損失を最小限に抑えながら,層幅の空間的目標を自動的に決定する新しい圧縮手法である。
SPDYは2つの新しい手法で構成されている: 1つは、与えられたレイヤワイド感度スコアのセットを仮定して、高速化制約されたレイヤワイド圧縮問題を解決する効率的な動的プログラミングアルゴリズムである。
一般的なビジョンと言語モデルにわたる実験では、SPDYはワンショットおよび段階的なプルーニングシナリオの両方において、既存の戦略と比較して高い精度を回復しながら、スピードアップを保証し、既存のプルーニングアプローチと互換性があることが示されている。
また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。
学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。
創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文 参考訳(メタデータ) (2024-04-01T20:44:28Z) - Fast as CHITA: Neural Network Pruning with Combinatorial Optimization [9.440450886684603]
本稿では,複数重みの重み付けと重み付けの併用効果を両立する最適化型プルーニングフレームワークを提案する。
我々のアプローチであるCHITAは、古典的なBrain Surgeonフレームワークを拡張し、スピード、メモリ、パフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-28T15:03:18Z) - Pruning Deep Neural Networks from a Sparsity Perspective [34.22967841734504]
プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、または層を落とすことで達成される。
深層ニューラルネットワークの圧縮可能性を測定するためにPQインデックス(PQI)を提案し,これをスペーサ性インフォームド・アダプティブ・プルーニング(SAP)アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2023-02-11T04:52:20Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。