論文の概要: Layer-adaptive Structured Pruning Guided by Latency
- arxiv url: http://arxiv.org/abs/2305.14403v1
- Date: Tue, 23 May 2023 11:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:27:01.176781
- Title: Layer-adaptive Structured Pruning Guided by Latency
- Title(参考訳): 遅延を考慮した層適応構造プルーニング
- Authors: Siyuan Pan, Linna Zhang, Jie Zhang, Xiaoshuang Li, Liang Hou, Xiaobing
Tu
- Abstract要約: 構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。
本研究では,大域的重要度スコアSP-LAMPを非構造的プルーニングから構造的プルーニングに導出することで,大域的重要度スコアSP-LAMPを提案する。
CIFAR10におけるResNet56の実験結果から,我々のアルゴリズムは代替手法に比べて低レイテンシを実現することが示された。
- 参考スコア(独自算出の注目度): 7.193554978191659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured pruning can simplify network architecture and improve inference
speed. Combined with the underlying hardware and inference engine in which the
final model is deployed, better results can be obtained by using latency
collaborative loss function to guide network pruning together. Existing pruning
methods that optimize latency have demonstrated leading performance, however,
they often overlook the hardware features and connection in the network. To
address this problem, we propose a global importance score SP-LAMP(Structured
Pruning Layer-Adaptive Magnitude-based Pruning) by deriving a global importance
score LAMP from unstructured pruning to structured pruning. In SP-LAMP, each
layer includes a filter with an SP-LAMP score of 1, and the remaining filters
are grouped. We utilize a group knapsack solver to maximize the SP-LAMP score
under latency constraints. In addition, we improve the strategy of collect the
latency to make it more accurate. In particular, for ResNet50/ResNet18 on
ImageNet and CIFAR10, SP-LAMP is 1.28x/8.45x faster with +1.7%/-1.57% top-1
accuracy changed, respectively. Experimental results in ResNet56 on CIFAR10
demonstrate that our algorithm achieves lower latency compared to alternative
approaches while ensuring accuracy and FLOPs.
- Abstract(参考訳): 構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。
最終モデルがデプロイされる基盤となるハードウェアと推論エンジンを組み合わせることで、ネットワークのプルーニングを導くためにレイテンシコラボレーティブ損失関数を使用することで、よりよい結果を得ることができる。
遅延を最適化する既存のプルーニング手法は、主要な性能を示しているが、ネットワーク内のハードウェア機能や接続を見落としていることが多い。
この問題に対処するために,大域的重要度スコアSP-LAMP(Structured Pruning Layer-Adaptive Magnitude-based Pruning)を提案する。
spランプでは、各層がspランプスコア1のフィルタを含み、残りのフィルタがグループ化される。
グループknapsackソルバを用いてSP-LAMPスコアをレイテンシ制約下で最大化する。
さらに、レイテンシ収集の戦略を改善して、より正確なものにします。
特に ImageNet と CIFAR10 の ResNet50/ResNet18 では、SP-LAMP は 1.28x/8.45x で、+1.7%/-1.57% のトップ-1 の精度が変更されている。
CIFAR10におけるResNet56の実験結果から,提案アルゴリズムは精度とFLOPを保証しながら,代替手法に比べて低レイテンシを実現することが示された。
関連論文リスト
- Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - DeepReShape: Redesigning Neural Networks for Efficient Private Inference [3.7802450241986945]
近年の研究では、PIのFLOPは無視できず、高いレイテンシのペナルティを負うことが示されている。
我々は、PIの制約下でニューラルネットワークアーキテクチャを最適化するDeepReShapeを開発した。
論文 参考訳(メタデータ) (2023-04-20T18:27:02Z) - Structural Pruning via Latency-Saliency Knapsack [40.562285600570924]
ハードウェア対応構造解析(HALP)
HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。
レイテンシー・ルックアップ・テーブルを使用してレイテンシー・リダクション・ポテンシャルとグローバル・サリエンシ・スコアを追跡し、精度低下を計測する。
論文 参考訳(メタデータ) (2022-10-13T01:41:59Z) - End-to-End Sensitivity-Based Filter Pruning [49.61707925611295]
本稿では,各層間のフィルタの重要度を学習するための感度に基づくフィルタプルーニングアルゴリズム(SbF-Pruner)を提案する。
提案手法はフィルタ重みからスコアを学習し,各層のフィルタ間の相関を考慮できる。
論文 参考訳(メタデータ) (2022-04-15T10:21:05Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - HALP: Hardware-Aware Latency Pruning [25.071902504529465]
ハードウェア対応構造解析(HALP)
HALPは、グローバルリソース割り当て最適化問題として構造化プルーニングを定式化する。
本稿では,分類タスクと検出タスク,さまざまなネットワーク上でのHALPを,ImageNetおよびVOCデータセット上で検討する。
論文 参考訳(メタデータ) (2021-10-20T22:34:51Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Efficient Incorporation of Multiple Latency Targets in the Once-For-All
Network [0.0]
ofaネットワークにおける複数のレイテンシターゲットを効率的に組み込むために,ウォームスタートとランダムネットワークプルーニングを用いた2つの戦略を導入する。
これらの戦略を現在の OFA 実装に対して評価し、当社の戦略が実行時間の大幅な向上をもたらすことを実証します。
論文 参考訳(メタデータ) (2020-12-12T07:34:09Z) - Weight-dependent Gates for Network Pruning [24.795174721078528]
本論では, 刈り取り決定は畳み込み重みに依存するべきであり, フィルタ重みから情報を学習し, フィルタのプーンや保持を自動的に行うための二分ゲートを得るための新しい重み依存ゲート (W-Gates) を提案する。
我々は,提案手法の有効性をResNet34,ResNet50,MobileNet V2で実証した。
論文 参考訳(メタデータ) (2020-07-04T10:29:07Z) - Toward fast and accurate human pose estimation via soft-gated skip
connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。
我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。
本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-02-25T18:51:51Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。